Модели и методы извлечения знаний из текстов на естественном языке тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Симаков, Константин Васильевич
- Специальность ВАК РФ05.13.17
- Количество страниц 269
Оглавление диссертации кандидат технических наук Симаков, Константин Васильевич
Введение.6
Актуальность работы.6
Цель и основные задачи работы.!.8
Объект и предмет исследования.8 *
Научная новизна.8
Области применения результатов диссертации.9
Глава 1. Постановка задачи извлечения знаний из текстов.12
1.1. Структура системы сопоставляющего анализа.12
1.2. Классификация знаний.14
1.3. Функционирование системы извлечения.16
1.4. Основные задачи диссертации.18
1.5. Оценка качества работы системы извлечения.21
Глава 2. Обзор методов извлечения знаний.22
2.1. Основные подходы к машинному обучению.22
2.1.1. Анализ и синтез при обучении.23
2.1.2. Дедуктивное обучение.25
2.1.3. Индуктивное обучение.26
2.1.4. Обучение на основе подобия.28
2.1.5. Типовые алгоритмы обобщения на основе подобия.30
2.2. Обучение в задачах извлечения информации.32
2.2.1. Детерминированный подход.32
2.2.1.1. Пропозиционные методы.33
2.2.1.2. Реляционные методы.46
2.2.1.3. Предварительные выводы.64
2.2.2. Вероятностный подход.68
2.2.2.1. Классификатор Байеса и стохастические грамматики.68
2.2.2.2. Скрытые Марковские Модели.70
2.2.2.3. Максимизация энтропии.76
2.2.2.4. Условные случайные поля.82
2.2.2.5. Предварительные выводы.87
2.3. Анализ подходов к извлечению знаний.89
2.4. Выводы по главе.92
Глава 3. Разработка принципов построения систем сопоставляющего анализа и извлечения знаний.94
3.1. Модель знаний предметной области.94
3.1.1. Онтологическое представление знаний.95
3.1.2. Фреймовое представление знаний.98
3.1.3. Наложение фреймов.100
3.2. Извлечение в сопоставляющем анализе.103
3.3. Функционирование системы извлечения.105
3.4. Единая стратегия обучения: A3.108
3.5. Выводы по главе.111
Глава 4. Разработка модели извлечения экземпляров фреймов.112
4.1. Модель представления текста.112
4.2. Компоненты модели извлечения.115
4.2.1. Описание модели.115
4.2.2. Элементы образцов и функция покрытия.117
4.3. Синтаксис правил извлечения.121
4.3.1. Способы описания лексических ограничений.121
4.3.2. Синтаксис правил извлечения.122
4.3.3. Примеры правил извлечения.126
4.4. Решетка лексических ограничений.130
4.5. Метод извлечения.132
4.5.1. Автомат извлечения.133
4.5.2. Алгоритм извлечения.139
4.6. Теорема о поиске модели извлечения.144
4.7. Выводы по главе.149
Глава 5. Разработка метода обучения модели извлечения.152
5.1. Описание метода.152
5.1.1. Представление обучающих примеров.153
5.1.2. Оценки качества результатов обучения.156
5.1.3. Фазы и этапы обучения.157
5.2. Описание этапов обучения.159
5.2.1. Формирование предельно конкретных правил.159
5.2.2. Итеративное обобщение.160
5.2.2.1. Алгоритм обобщения пары правил.165
5.2.2.2. Алгоритм обобщения пары образцов.168
5.2.3. Деградация незадействованных примеров.182
5.2.4. Генерация исключений.183
5.3. Выводы по главе.185
Глава 6. Разработка модели морфологического анализа и метода ее обучения.188
6.1. Выбор основополагающего метода анализа.188
6.1.1. Методы анализа на основе аффиксов.189
6.1.2. Словарные методы.191
6.1.3. Принцип аналоги.192
6.1.4. Обоснование выбора основополагающего метода.196
6.2. Модифиция принципа аналогии.197
6.2.1. Описание модели морфологического анализа.198
6.2.2. Вычислительная сложность морфологического анализа.201
6.3. Метод обучения модели морфологического анализа.204
6.3.1. Обучение согласно стратегии A3.204
6.3.2. Алгоритм обучения.206
6.4. Выводы по главе.213
Глава 7. Экспериментальное исследование свойств разработанных моделей.215
7.1. Свойства модели морфологического анализа.215
7.1.1. Исходные данные.215
7.1.2. Свойства алгоритма обучения.216
7.1.3. Точность и полнота морфологического анализа.222
7.2. Свойства модели извлечения.225
7.2.1. Исходные данные для эксперимента.226
7.2.2. Качество извлечения для текстов новостей.228
7.2.3. Качество извлечения для текстов стенограмм.230
7.2.4. Качество извлечения для текстов почтовых адресов.231
7.2.5. Зависимость показателей качества от длины контекста.233
7.2.6. Качественное сопоставление с зарубежными аналогами.236
7.3. Выводы по главе.239
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования2008 год, доктор технических наук Найханова, Лариса Владимировна
Разработка и исследование методов и системы семантического анализа естественно-языковых текстов2010 год, кандидат технических наук Мокроусов, Максим Николаевич
Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров2005 год, доктор технических наук Фомичев, Владимир Александрович
Система поддержки принятия решений на основе хранилища знаний с интеллектуальной обработкой русскоязычного текста на основе объектной семантической сети2004 год, кандидат технических наук Кузнецов, Денис Юрьевич
Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами2013 год, кандидат технических наук Фаррохбахт Фумани Мехди
Заключение диссертации по теме «Теоретические основы информатики», Симаков, Константин Васильевич
ОБЩИЕ ВЫВОДЫ
Достигнута поставленная цель работы - разработаны модели и методы извлечения знаний из текстов, применимые как для задач сопоставляющего анализа, так и для других задач интеллектуальной обработки текстов. Основными результатами работы являются следующие.
1. Предложена комбинированная модель представления знаний, сочетающая современные возможности онтологического представления знаний и достоинства фреймовых моделей и предоставляющая инструмент для разработки систем сопоставляющего анализа.
2. Разработана модель извлечения знаний из текстов и метод ее обучения. В модели выделена решетка лексических ограничений, на основе которой доказана теорема о возможности обучения модели извлечения. Простота структуры правил извлечения обеспечивает практическую реализуемость механизмов обучения, а также обеспечивает реализацию метода извлечения на основе конечного автомата.
3. Предложена модель морфологического анализа и метод ее обучения. В качестве учителя используется другой морфологический анализатор с высокими показателями качества на неполном лексиконе языка. Обучение не требует вмешательства человека. Обученная модель получает способность разбирать изначально неизвестные слова.
4. Все разработанные модели и методы доведены до программной реализации в виде самостоятельных продуктов для использования в задачах автоматизированной обработки текстов.
5. Разработан программный комплекс для выполнения экспериментальной проверки работоспособности моделей. Проведенные эксперименты показали: для морфологического анализа точность обученной модели составляет 0,99. Для модели извлечения значение 0,85 Б-меры качества достигается на 30% обучающих примеров от общего числа примеров для текстов жанра информационной заметки. Для текстов телеграммного жанра Б-мера достигает значения 0,98 на 20% обучающих примеров.
6. Разработанные модели и методы
6.1.Внедрены в Системе семантического контроля текстов редактируемых документов, используемой в Совете Федерации Федерального Собрания Российской Федерации для выявления кадровых несоответствий в текстах стенограмм заседаний Совета Федерации.
6.2.Внедрены в Информационно-поисковой системе «Обзор СМИ» в части автоматического построения аннотаций к документам, используемой в Совете Федерации Федерального Собрания Российской Федерации.
6.3.Используются в Интеллектуальной системе выявления и исправления ошибок в почтовых адресах, разработанной компаний НПЦ «ИНТЕЛТЕК ПЛЮС».
6.4.Использованы в НИР по кластеризации и классификации текстовых документов для систем специального назначения, выполненной ВНИИНС для МО.
244
ЗАКЛЮЧЕНИЕ
В диссертации решены основные задачи, сформулированные в первой главе, а именно, разработана модель представления знаний для задачи сопоставляющего анализа и разработаны модели и методы извлечения знаний из текстов, применяемые на разных стадиях работы системы извлечения в рамках сопоставляющего анализа текстов.
Согласно выполненной классификации из естественно-языковых текстов извлекаются следующие виды знаний.
- Экземпляры фреймов модели предметной области, которые после извлечения преобразуются в объекты онтологии с означенными свойствами и взаимосвязями. Преобразование задается путем наложения схемы фреймов на схему онтологии. Экземпляры фреймов извлекаются автоматически путем применения правил извлечения.
- Правила извлечения, являющиеся компонентами модели ЕМ. Обучение данной модели выполняется на основе специально подготовленных естественно-языковых текстов, результатом которого и являются правила извлечения. Модель ЕМ и метод ее обучения реализуют символьный подход к машинному обучению, как методу приобретения знаний интеллектуальными системами. Символьный поход выбран в силу прогнозируемости результатов обучения и их доступности для эксперта, с точки зрения дальнейшего анализа и ручной модификации.
- Правила словообразования модели морфологического анализатора MA. Обучение данной модели, также как и модели ЕМ, выполняется на основе естественно-языковых текстов. Результатом обучения являются образцы слов и канонических форм, с которыми связаны наборы морфологических признаков. В совокупности эти компоненты модели MA образуют целевые правила словообразования.
Извлечение экземпляров фреймов основано на принципах извлечения информации из текстов (Information Extraction), символьный и вероятностный подходы которых детально проанализированы в главе 2. В результате данного анализа отдано предпочтение символьному подходу, а также сформулированы особенности, которыми должна обладать модель извлечения и метод ее обучения, чтобы ее можно было применить к русскоязычным текстам.
Для извлечения знаний второго и третьего вида разработана единая стратегия обучения АЗ (Акцентированная аппроксимирующая абстракция). Данная стратегия задает основные принципы извлечения процедурных знаний на основе естественно-языковых текстов. Стратегия АЗ подразумевает наличие дополнительного этапа, выполняющего преобразование наблюдений, представленных естественно-языковыми текстами, в формализованные обучающие примеры. Основным методом обучения является конструктивная индукция.
При разработке модели ЕМ учтен тот факт, что множества допустимых к употреблению слов могут задаваться как явным перечислением, так и с помощью классификационных признаков. В обоих случаях элементы правил извлечения должны удовлетворять требованию в виде решетки лексических ограничений СЬ, наличие которой необходимо для того, чтобы модель ЕМ была обучаемой. Данный факт доказан в виде теоремы «О поиске модели извлечения». Для обучения модели ЕМ разработан метод, реализующий стратегию сжатия посредством группового обобщения, обеспечивающий в сравнении с аналогами более точный поиск целевого множества правил извлечения.
В основу модели МЛ заложен предложенный модифицированный принцип аналогии, дающий такие преимущества, как существенное сокращение морфологического словаря и уменьшение вычислительной сложность алгоритма анализа. Для обучения модели МЛ разработан метод двухстадийного сжатия, применяющий как парные, так и унарные обобщения. Уникальностью метода является использование другого морфологического анализатора-учителя, исполняющего роль преобразователя наблюдений в обучающие примеры. Результатом такого обучения является анализатор, показатели качества которого существенно превосходят показатели учителя.
Разработанные модели и методы подвергнуты экспериментальной проверке, по результатам которой подтверждены их указанные свойства.
Список литературы диссертационного исследования кандидат технических наук Симаков, Константин Васильевич, 2008 год
1. Hahn U., Schnattinger K. Knowledge mining from textual sources // Proceedings of the sixth international conference on Information and knowledge management. 1997. - P. 83 - 90.
2. Hahn U., Schnattinger K. A text understander that learns // Proceedings of the 17th international conference on Computational linguistics. 1998. - Vol.1. — P. 476 - 482.
3. Hahn U., Marko K.G. Joint knowledge capture for grammars and ontologies // Proceedings of the 1st international conference on Knowledge capture. 2001. -P. 68-75.
4. Chinchor N. MUC-4 evaluation metrics // Proceedings of the 4th conference on Message understanding. 1992. - P. 22 - 29.
5. Chinchor N., Sundheim B. MUC-5 evaluation metrics // Proceedings of the 5th conference on Message understanding. 1993. - P. 69 - 78.
6. Grishman R., Sundheim B. Message Understanding Conference-6: a brief history // Proceedings of the 16th conference on Computational linguistics. -1996.-Vol.l.-P. 466-471.
7. C. J. van Rijsbergen. Information Retrieval / C. J. van Rijsbergen. 2nd edition. - London: Butterworth & Co (Publishers) Ltd., 1979. - 147 p.
8. Michalski R.S. Multistrategy Constructive Learning: Toward a Unified Theory of Learning // Reports of the Machine Learning and Inference Laboratory (MLI 90-1). George Mason University, Fairfax, VA, 1989. -January. — 35 p.
9. Mitchel T.M., Keller R.M., Kedar-Cabelli S.T. Explanation-based generalization: A unifying view // Machine Learning. 1986. - No. 1. - P. 4780.
10. Michalski R.S. A theory and methodology of inductive learning // Artificial intelligence. 1983. - No. 20. - P. 111-161.
11. Huffman S.B. Learning to extract information from text based on user-provided examples // Proceedings of the fifth international conference on Information and knowledge management. Rockville, Maryland, (United States), 1996.-P. 154-163.
12. Zelenko D., Aone C., Richardella A. Kernel methods for relation extraction // The Journal of Machine Learning Research. 2003. - No. 3. - P. 1083-1106.
13. Кормалев Д.А. Автоматическое построение правил извлечения информации из текста // Системный анализ и информационные технологии (САИТ-2005): Труды 1-ой международной конференции. — Т. 1.-М.: КомКнига, 2005. С. 205-209.
14. Rigau G., Rodrigues H., Agirre E. Building Accurate Semantic Taxonomies from Monolingual MRDs // Proceedings of the 36th annual meeting on Association for Computational Linguistics. Montreal, Quebec, (Canada), 1998.-Vol. 2.-P. 1103-1109.
15. Rigau G., Atserias J., Agirre E. Combining Unsupervised Lexical Knowledge Methods for Word Sense Disambiguation // Proceedings of the 35th annual meeting on Association for Computational Linguistics. Madrid, (Spain), 1997. -P. 48-55.
16. Califf M.E., Mooney R.J. Bottom-up relational learning of pattern matching rules for information extraction // The Journal of Machine Learning Research. -2003.-No. 4.-P. 177-210.
17. Dejean H. Learning rules and their exceptions // The Journal of Machine Learning. 2002. - No. 2. - P. 669-693.
18. Claveau V., Sebillot P., Fabre C. Learning Semantic Lexicon from a Part-of-Speech and Semantically Tagged Corpus Using Inductive Logic Programming // The Journal of Machine Learning Research. 2003. - No. 4. - P. 493-525.
19. Тшшо J., Ageno A., Catala N. Adaptive information extraction // ACM Computing Surveys archive. 2006. - Vol. 38, Issue 2. - Article No. 4.
20. Riloff E. Automatically Constructing a Dictionary for Information Extraction Tasks // In Proceedings of the 11th National Conference on Artificial Intelligence (AAAI). 1993. - P. 811-816.
21. Riloff E. Automatically generating extraction patterns from untagged texts // In Proceedings of the 13th National Conference on Artificial Intelligence (AAAI). 1996. - Vol. 2. - P. 1044-1049:
22. Kim J., Moldovan D. PALKA: A System for Lexical Knowledge Acquisition // Proceedings of the 2nd international conference on Information and. knowledge management. Washington, D.C., (USA), 1993. - P. 124-131.
23. Kim J., Moldovan D. Acquisition of Linguistic Patterns for Knowledge-Based Information Extraction // IEEE Transactions on Knowledge and Data Engineering archive. 1995. - Vol. 7, Issue 5. - P. 713-724.
24. CRYSTAL: Inducing- a conceptual* dictionary / S. Soderland, D: Fisher, J. Aseltine, We. Lehnert // In Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence. 1995. - P. 1314—1319.
25. Soderland S. Learning to extract text-based information from the World Wide Web // In Proceedings of Third International Conference on Knowledge Discovery and Data Mining (KDD-97). 1997. - P. 251-254.
26. Aseltine J. WAVE: An Incremental Algorithm for Information Extraction: Technical Report WS-99-11 // In Proceedings of the AAAI Workshop on Machine Learning for Information Extraction. 1999. - P. 21-24.
27. Chai J.Y., Biermann A.W., Guinn C.I. Two dimensional generalization in information extraction // In Proceedings of the Sixteenth National Conference on Articial Intelligence. 1999. - July. - P. 431-438.
28. Chai J. Y., Biermann A. The use of lexical semantics in information extraction // In Proceedings of the Workshop in Automatic Information Extraction and Building of Lexical Semantic Resources. 1997. - P. 61-70.
29. Miller G.A. WordNet: a lexical database for English // Communications of the ACM archive. 1995. - Vol. 38, Issue 11. - P. 39^1.
30. Richardson S.D., Dolan W.B., Vanderwende L. MindNet: acquiring and structuring semantic information from text // Proceedings of the 17th international conference on Computational linguistics. 1998. — Vol. 2, — P. 1098-1102.
31. Moldovan D., Girju R., Rus V. Domain-specific knowledge acquisition from text // Proceedings of the sixth conference on Applied natural language processing. 2000. - P. 268-275.
32. Argamon S., Dagan I., Krymolowski Y. A memory-based approach to learning shallow natural language patterns // Proceedings of the 17th international conference on Computational linguistics. 1998. - Vol. 1. — P. 67-73. •
33. Leroy G., Chen H., Martinez J.D. A shallow parser based on closed-class words to capture relations in biomedical text // Journal of Biomedical Informatics archive. 2003. - Vol. 36, Issue 3. - P. 145-158.
34. Freitag D. Machine Learning for Information Extraction in Informal Domains // Machine Learning. 2000. - Vol. 7. - P. 169-202.
35. Califf M.E., Mooney RJ. Bottom-up relational learning of pattern matching rules for information extraction // Journal of Machine Learning Research. -2003.-Vol. 4.-P. 177-210.
36. Soderland S. Learning information extraction rules for semi-structured and free text. Machine Learning. 1999. - Vol. 34, Issue 1-3. P. 233-272.
37. Pazienza M.T., Stellato A., Vindigni M. Combining ontological knowledge and wrapper induction techniques into an e-retail system // In: Workshop on Adaptive Text Extraction and Mining (ATEM03) held with ECML/PKDD. -Cavtat, 2003.-P. 50-57.
38. Dejean H. Learning rules and their exceptions // The Journal of Machine Learning Research archive. 2002. - Vol. 2 (March). - P. 669-693.
39. Learning Semantic Lexicons from a Part-of-Speech and Semantically Tagged Corpus Using Inductive Logic Programming / V. Claveau, P. Sebillot, C. Fabre, P. Bouillon // Journal of Machine Learning Research. 2003. - Vol. 4. - P. 493-525.
40. Srinivasan A. The ALEPH Manual Version 4 and above Электронный ресурс. / A. Srinivasan; Oxford University Computing Laboratory. Режим доступа: httpV/web.comlab ox.ac.uk/oucl/research/areas/rriach1carn/Alcph/a1ephtoc.html. свободный.
41. Relational learning as search in a critical region / M. Botta, A. Giordana, L. Saitta, M. Sebag // The Journal of Machine Learning Research archive. — 2003. -Vol. 4.-P. 431-463.
42. Costa V.S., Srinivasan A., Camacho R. Query transformations for improving the efficiency of ILP systems // The Journal of Machine Learning Research archive. 2003. - Vol. 4. - P. 465^91.
43. Dzeroski S. An introduction to inductive logic programming and learning language in logic / S. Dzeroski, J. Cussens, S. Manandhar // Learning language in logic. — Berlin: Springer, 2000. P. 3-35.
44. Appelt D.E., Onyshkevych B. The common pattern specification language / Annual Meeting of the ACL archive // Proceedings of a workshop on held at Baltimore. 1998. - October. - P. 23-30.
45. Теория вероятностей: Учебник для вузов / А.В. Печенкин, О.И. Тескин, Г.М. Цветкова, П.П. Бочаров, Н.Е. Козлов; Под ред. B.C. Зарубина, А.П. Крищенко. 4-е изд., стереотип. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2006.-455 с.
46. Androutsopoulos I., Koutsias J., Konstantinos V. An experimental comparison of naive Bayesian and keyword-based anti-spam filtering with personal e-mail messages // Proceedings of the 23rd annual international ACM
47. SIGIR conference on Research and development in information retrieval. — 2000.-P. 160-167.
48. Androutsopoulos I., Paliouras G., Michelakis E. Learning to filter unsolicited commercial e-mail: Technical Report 2004/2 / National Centre for Scientific Research «Demokritos». Athens, 2004. - October. - 52 p.
49. Hovold J. Naive bayes spam filtering using word-position-based attributes // Proceedings of the 2nd Conference on Email and Anti-Spam (CEAS 2005). -Palo Alto, CA, 2005. July. - 8 p.
50. Pedersen T. A simple approach to building ensembles of Naive Bayesian classifiers for word sense disambiguation // Proceedings of the first conference: on North American chapter of the Association for Computational Linguistics. — 2000.-P. 63-69.
51. Feldman R., Rosenfeld В., Fresko M. TEG a hybrid approach to information extraction // Knowledge and Information Systems archive. - 2006. -Vol. 9, Issue 1.-P. 1-18.
52. Abney S.P. Stochastic attribute-value grammars // Computational,Linguistics archive. 1997. - Vol! 23, Issue 4. - P. 597-618.
53. Дискретная математика: Учеб. для вузов / А.И. Белоусов, С.Б. Ткачев; Под ред: В;С. Зарубина, А.П. Крищенко. 4-е изд., стереотип. - М.: Изд— во МГТУ им. Н.Э. Баумана, 2006. - 743 с.
54. Rabiner L., Juang B. An introduction to hidden Markov models // IEEE ASSP Magazine. 1986.-Vol. 3, Issue 1, Part 1.-P. 4-16.
55. Sang-Zoo Lee, Jun-ichi Tsujii, Hae-Chang Rim. Part-of-Speech Tagging Based on Hidden Markov Model Assuming Joint Independence // In Proceedings of the 38 th Annual Meeting of the ACL. 2000. - P. 263-269.
56. Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition^// Proceedings of the IEEE. 1989. - Vol. 77, Issue 2. - P. 257-286.
57. Freitag D., McCallum A.K. Information Extraction with HMMs and Shrinkage // Proceedings of the AAAI-99 Workshop on Machine Learning for Information Extraction. — 1999. — P. 31 36.
58. Borkar V., Deshmukh K., Sarawagi S. Automatic segmentation of text into structured records // Proceedings of the 2001 ACM SIGMOD international conference on Management of data. 2001. - P. 175-186.
59. Berger A.L., Delia Pietra V.J., Delia Pietra S.A. A maximum- entropy approach-to naturaLlanguage processing5// Computational*Linguistics archive. -1996.-Vol. 22, Issue 1,-P: 39-71.
60. Chieu H.L., Hwee Tou Ng. Named entity recognition: a maximum entropy approach using global information1 // Proceedings of the 19th international conference on Computational linguistics. 2002. - Vol. 1. - P. 1-7.
61. Hai Leong Chieu, Hwee Tou Ng. Named entity recognition with a maximumentropy approach // Proceedings of the seventh conference on NaturaManguagelearning at HLT-NAACL 2003. 2003. - Vol. 4. - P. 160-163.
62. Hai Leong Chieu, Hwee Tou Ng. A maximum entropy approach to information extraction from semi-structured and free text // Eighteenth national conference on Artificial intelligence. -2002. P. 786-791.
63. McCallum A., Freitag D., Fernando C. N. Pereira. Maximum Entropy Markov Models for Information Extraction and Segmentation // Proceedings of the Seventeenth International Conference on Machine Learning. 2000. — P. 591598.
64. McCallum A. An Introduction to Conditional Random Fields for Relational Learning / C. Sutton, A. McCallum // Introduction to Statistical Relational Learning / Edited by Lise Getoor and Ben Taskar. MIT Press, 2007. - P. 95130.
65. Lafferty J., McCallum A., Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data // In Proc. 18th International Conference on Machine Learning (ICML'01). 2001. - P. 282-289.
66. Wallach H.M. Conditional Random Fields: An Introduction: Technical Report No. MS-CIS-04 21 / University of Pennsylvania Department of Computer and Information Science. 2004: - 10 p.
67. McCallum A. Efficiently inducing features of conditional random fields // In Proceedings of Nineteenth Conference on Uncertainty in Artificial Intelligence (UAI03). 2003. - P. 403-410.
68. Ермаков A.E., Плешко В.В., Митюнин В.А. RCO Pattern Extractor: компонент выделения особых объектов в тексте Электронный ресурс. — Режим доступа: http://www.rco.ru/article.asp7ob по=237, свободный.
69. Пресс-портреты. на Яндекс.Новостях. Описание технологии Электронный ресурс. Режим доступа: http://news.yandex.ru/people-search-tech.html. свободный.
70. Кормалев Д.А. Индуктивный алгоритм машинного обучения для построения правил извлечения информации из текста. // Девятая
71. Национальная конференция по искусственному интеллекту с международным участием КИИ-2004: Труды конференции. — М.: Физматлит, 2004. -Т.1. С. 154-161.
72. Кормалев Д.А. Приложения методов машинного обучения в задачах анализа текста // Труды международной конференции «Программные системы: теория и приложения». Переславль-Залесский, М.: Физматлит, 2004. - Т.2. - С. 35-48.
73. Peter F. Patel-Schneider, Ian Horrocks. OWL Web Ontology Language Semantics and Abstract Syntax Section 2. Abstract Syntax Электронный ресурс. — Режим доступа: http://www.w3.org/TR/owl-semantics/syntax.htmK свободный.
74. Peter F. Patel-Schneider, Ian Horrocks. OWL Web Ontology Language. Semantics and Abstract Syntax Section 3. Direct Model-Theoretic Semantics! Электронный ресурс. Режим доступа: http://www. w3 .org/TR/o wl-semantics/direct.html, свободный.
75. Гаврилова T.A., Червинская K.P. Извлечение и структурирование знаний для экспертных систем. — М:: Радио и связь, 1992. 200 с.
76. Peter D: Karp, Thomas Gruber. The Generic Frame Protocol, Электронный ресурс. — Режим доступа: http://www.ai.sri.com/~gfp/spec/paper/paper.html, свободный.
77. Осипов Г.С. Методы поиска и анализа информации. Автоматическое извлечение данных / Д.А. Кормалев, Е.П. Куршев, Г.С. Осипов, Е.А. Сулейманова, И.В. Трофимов. Переславль-Залесский: ИПС РАН, 2003. — 48 с.
78. Alpha К. Luk. Statistical sense disambiguation with relatively small corpora using dictionary definitions // Proceedings of the 33rd annual meeting on Association for Computational Linguistics. 1995. - P. 181-188.
79. Rigau G., Rodriguez H., Agirre E. Building accurate semantic taxonomies from monolingual MRDs // Proceedings of the 36th annual meeting on Association for Computational Linguistics. 1998: - Vol. 2.-P. 1103-1109.
80. Yael Karov, Shimon Edelman. Similarity-based word sense disambiguation // Computational Linguistics archive. 1998. - Vol. 24, Issue 1; (March 1998), SPECIAL ISSUE: Special issue on word sense disambiguation. - P. 41-59.
81. German Rigau, Jordi Atserias, Eneko Agirre. Combining unsupervised lexical knowledge methods for word sense disambiguation // Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics. 1997. - P. 48-55.
82. Patrick Pantel, Dekang Lin. Discovering word senses from text. Conference on Knowledge Discovery in Data archive // Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. — 2002.-P. 613-619.
83. Mihalcea R., Moldovan D.I. A method for word sense disambiguation of unrestricted text // Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics. 1999. - P. 152158.
84. Rebecca Bruce, Louise Guthrie. Genus disambiguation: a study in weighted preference // Proceedings of the 14th conference on Computational linguistics. -1992.-Vol. 4.-P. 1187-1191.
85. Сухоногов A.M., Яблонский C.A. Разработка русского WordNet // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды шестой всероссийской научной конференции (RCDL'2004) Пущино, 2004. - С.113-116.
86. Henry S. Thompson. XML Schema Part 1: Structures (Second Edition) Электронный ресурс. / Henry S. Thompson, David Beech, Murray Maloney, Noah Mendelsohn; W3C Recommendation. Режим доступа: http://www.w3.org/TR/xmlschema-l/, свободный.
87. Брик A.B. Исследование и разработка вероятностных методов синтаксического анализа текста на естественном языке: автореф. дис. . канд. техн. наук: 05.13.11: защищена 06.06.2002 / A.B. Брик; МГТУ им. Н.Э. Баумана. М., 2002. - 16 с.
88. Сегалович И. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре слов Электронный ресурс. / И. Сегалович, М. Маслов. Режим доступа: http://companv.vandex.ru/articles/articlel.html, свободный.
89. Попов Э.В. Общение с ЭВМ на естественном языке. 2-е изд., стереотипное. - М.: Едиториал УРСС, 2004. - 358 с.
90. Зализняк A.A. Грамматический словарь русского языка (словоизменение). 2-е изд. - М.: Русский язык, 1980. - 880 с.
91. Старостин С.А. Морфологический анализ Электронный ресурс. / С.А. Старостин. Режим доступа: http://starling.rinet.ru/morph.htm, свободный.
92. Автоматическая обработка текста Электронный ресурс. Режим доступа: http://www.aot.ru, свободный.
93. Белоногов Г.Г., Калинин Ю.П., Хорошилов A.A. Компьютерная лингвистика и перспективные информационные технологии М.: Русский мир, 2004. -203 с.
94. УНИВЕРСИТЕТ ИМ. Н.Э. БАУМАНА1. На правах рукописи
95. Симаков Константин Васильевич10420 0.8 0921 7
96. МОДЕЛИ И МЕТОДЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
97. Специальность 05.13.17 — Теоретические основы информатики
98. Диссертация на соискание ученой степени кандидата технических наук
99. Научный руководитель — доктор технических наук профессор В.Н. Голубкин1. Москва-2008
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.