Разработка средств повышения релевантности информационно-поисковых систем на базе онтологий тема диссертации и автореферата по ВАК РФ 05.25.05, кандидат технических наук Манучарян, Левон Ашотович

  • Манучарян, Левон Ашотович
  • кандидат технических науккандидат технических наук
  • 2012, Тамбов
  • Специальность ВАК РФ05.25.05
  • Количество страниц 141
Манучарян, Левон Ашотович. Разработка средств повышения релевантности информационно-поисковых систем на базе онтологий: дис. кандидат технических наук: 05.25.05 - Информационные системы и процессы, правовые аспекты информатики. Тамбов. 2012. 141 с.

Оглавление диссертации кандидат технических наук Манучарян, Левон Ашотович

Введение.

1 Состояние и задачи развития методов извлечения информации из неструктурируемого текста.

1.1 Современные методы извлечения информации из неструктурированного текста.

1.1.1 Методы, основанные на правилах.

1.1.2 Методы извлечения, основанные на классификации.

1.1.3 Методы извлечения, основанные на последовательной маркировке.

1.1.4 Дискриминационные модели.

1.1.5 Условные случайные поля (Conditional Random Fields).

1.2 Анализ систем извлечения информации из неструктурируемого текста.

1.2.1 Алгоритм извлечения информации iAsa.

1.2.2 Алгоритм извлечения информации (LP)".

1.2.3 Алгоритм извлечения информации Wien.

1.2.4 Алгоритм извлечения информации BW1.

1.2.5 Алгоритм со Скрытыми Марковскими Моделями.

1.3 Неточности результатов извлечения информации в разных моделях.

1.3.1 Доверительные величины при одиночных извлечений.

1.3.2 Мультиатрибутные извлечения.

1.3.3 Множественные избыточные извлечения.

1.4 Результаты анализа современных методов, моделей и систем извлечения информации.

1.5 Выводы.

2 Методика релевантности извлечения конкретных типов сложных связей на основе онтологий.

2.1 Производные структуры. Дерево грамматического разбора и графы зависимостей.

2.1.1 Дерево грамматического разбора.

2.1.2 Граф зависимостей.

2.2 Онтология предметной области. Представление информационных составляющих сетевых ресурсов.

2.2.1 Использование онтологии для представления сложных связей.

2.3 Методика извлечения информации на базе онтологий.

2.3.1 Обработка текста пофразовым методом.

2.3.2 Проверка потенциальных связей, согласно модели онтологии.

2.4 Алгоритмы извлечения и валидации информации на базе онтологий.

2.4.1 Разрешение местоимений в алгоритме 1.

3 Модель поиска персональной информации в глобальной сети с устранением неоднозначности в результатах при поиске персональных имен.

3.1 Основные положения.

3.2 Модель поиска при помощи кластеризации документов.

3.4 Выводы.

4 Моделирование и архитектура системы извлечения информации. Результаты внедрения.

4.1 Обзор архитектуры.

4.2 Детали архитектуры и реализации.

4.2.1 Служебная система запросов и ответов.

4.2.3 Пользовательский интерфейс, визуализация и система анализа.

4.3 Практическая оценка и анализ использования Системы извлечения.

Онтологии и примеры данных.

4.4 Результаты и интерпретация.

4.4.1 Интерпретация.

4.4.2 Обсуждение ошибок.

4.5 Запросы к графам.

4.6 Выводы.

Рекомендованный список диссертаций по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка средств повышения релевантности информационно-поисковых систем на базе онтологий»

Актуальность темы. Современные проблемы информационно-управляемого искусственного интеллекта, а также проблемы семантических вычислений в области связанных данных обосновали потребность в предметно-структурированной потребляемой информации. Модели описания, средства анализа и выявления закономерностей в информационных потоках, а также методы извлечения информации значительно развились за последние два десятилетия, однако, данное направление находится на ранней стадии развития и требует решения многих актуальных задач, таких как контекстно-независимое извлечение информации и его конечное представление в общепринятом формате.

В настоящей работе рассматриваются проблемы поиска и анализа неструктурированной информации произвольного направления в глобальной сети с целыо извлечения смысловой информации и формального представления результатов в виде онтологий, а также эффективности результатов поисковых запросов, в контексте разрешения неоднозначностей в результатах при поиске имен в сети. Решение неоднозначностей в результатах при поиске имен в сети является востребованной задачей из-за требований растущего числа коммерческих приложений и поисковых систем предоставить автоматизированную всеобъемлющую информацию о конкретной именной сущности. Из-за недостоверности и противоречивости онлайн информации такая задача является сложной, и представленные на данный момент решения не являются довольно эффективными.

Основные методологические подходы извлечения сетевой информации были заложены в публикациях Доброва Б. В. (2009), Смирнова И. В., Соченкова И. В., Муравьева В. В., Тихомирова И. А. (2007), Симакова К. В. (2008), Сидоровы Е. А. (2006), Хлопотова М. В. (2004), R. McDonald (2005), Р. N. Mendes (2008), А. Niculescu-Mizil (2006), Е. Agichtein (2000), A. Yates (2007), D. Zelenko (2003), а в направлении устранения неоднозначностей при поиске персональных имен в глобальной сети отделяются работы следующих авторов - II. Рази1а (2006), .1. АгШеэ (2007), А. В১а (1998) и АггорагсП, Ь (2005). Несмотря на то, что существует много работ, сосредоточенных на извлечении предметио-ориентированной информации, которые охватывают много форм связей и предлагают общую парадигму извлечения связей при помощи правил, все они мотивированы целями извлечения, специфическими для конкретной предметной области.

Цель работы. Разработка методик, моделей и алгоритмов для повышения релевантности информационно-поисковых систем (ИПС) на базе онтологий.

Для достижения поставленной цели необходимо решить следующие задачи:

1. провести анализ современных технологий построения моделей систем извлечения информации из глобальной сети с целью выявления преимуществ и недостатков и нахождения путей повышения релевантности ИПС;

2. разработать методику повышения релевантности информационно-поисковых систем для извлечения конкретных типов сложных связей и представления результатов в виде онтологий для дальнейшего использования в практических приложениях;

3. разработать модель и алгоритмы извлечения сложных связей;

4. разработать модель поиска персональной информации в глобальной сети с устранением неоднозначности в результатах при поиске персональных имен;

5. на основании предложенных средств релевантности на базе онтологий создать поисково-информационную систему извлечения и семантического представления структурированной информации из неструктурированного текста.

Объектом исследования является информационно-поисковая система извлечения структурированной информации из неструктурированного текста.

Предметом исследования являются средства повышения релевантности информационно-поисковых систем.

Методы исследования основываются на теории множеств; синтаксического анализа; теории векторного пространства; теории графов; анализа и оптимизации программных систем; теории построения программ; концепций создания онтологии; методах модульного, структурного и объектно-ориентированного программирования; вычислительных экспериментах.

Научная новизна. В диссертации получены следующие основные результаты, характеризующиеся научной новизной:

1. методика извлечения информации из сетевых информационных ресурсов, отличающаяся независимостью от предметной области;

2. модель и алгоритмы извлечения информации из неструктурированного текста, отличающиеся использованием закономерностей в правилах образования языковых структур без ограничений привязки к конкретной предметной области;

3. автоматизированная технология формирования информации из сетевых ресурсов в виде онтологий, отличающаяся применением модуля обогащения извлеченной информации с целью повышения релевантности;

4. модель системы поиска персональной информации, основанная на текстовой кластеризации по тематическим признакам, отличающаяся использованием шести идентификационных признаков (название Web страницы, URL адрес документа, метаданные, фрагменты, контекстное предложение, совокупность слов) для повышения релевантности поисковых результатов.

Основные положения, выносимые на защиту: методика извлечения информации из сетевых информационных ресурсов; ^ модель и алгоритмы извлечения информации из неструктурированного текста; ^ модель системы поиска персональной информации в распределенных информационных системах.

Практическая ценность. Предложенные разработки были внедрены в основу информационно-поисковой системы "Arm-Person finder" компании

БсеопЭеу». Эксплуатация информационно-поисковой системы показала высокую эффективность разработанных средств релевантности (более 5%).

Основные методические и программные разработки диссертации используются для проведения лекционных и лабораторных занятий в рамках учебного процесса Воронежской государственной лесотехнической академии по дисциплинам «Вычислительная техника и сети», «Моделирование и оптимизация».

Апробация работы. Основные положения работы докладывались и обсуждались на Международной научно-практической конференции «Идеология XXI века: противоречия развития современного общества» (Саратов, 2011), V международной научно-практической конференции «Перспективы развития информационных технологий» (Новосибирск, 2011), 59-ой Международной молодежной научно-технической конференции (Владивосток, 2012) и ежегодных научно-практических конференциях профессорско-преподавательского состава ВГЛТА (Воронеж, 2010, 2011, 2012).

Соответствие диссертации паспорту научной специальности.

Диссертация соответствует следующим пунктам области исследования паспорта специальности 05.25.05 - «Информационные системы и процессы. 1. Методы и модели описания, оценки, оптимизации информационных процессов и информационных ресурсов, а также средства анализа и выявления закономерностей в информационных потоках. Когнитивные модели информационных систем, ориентированных на человеко-машинное взаимодействие. б. Сетевые информационные ресурсы и технологии, в том числе разработка и исследование принципов организации и функционирования распределенных информационных систем и баз данных, прикладных протоколов информационных сетей, форматов представления данных и языков информационного поиска в распределенных информационных ресурсах.

Публикации. По теме диссертации опубликовано 19 работ, в том числе в двух изданиях рекомендованных ВАК РФ.

Похожие диссертационные работы по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Заключение диссертации по теме «Информационные системы и процессы, правовые аспекты информатики», Манучарян, Левон Ашотович

4.6 Выводы

1. Представлена архитектура системы извлечения информации, базированной на применении моделей и алгоритмов, полученных в главе 2. Извлеченные связи представляются в виде RDF графов, которые могут быть помещены в RDF базы знания и к ним могут быть применены запросы, используя языки запросов для RDF.

2. Было создано и представлено несколько аналитических экспериментов, которые доказывают полезность предложенного подхода, базированного на онтологиях, для извлечения сложных связей из текста.

ЗАКЛЮЧЕНИЕ

В результате проведенных исследований была достигнута цель диссертационной работы - разработаны методики, модели и алгоритмы повыпения релевантности поисково-информационных систем на базе онтологий.

Достижение цели потребовало решение следующих задач.

1. Выполнен анализ современных технологий построения моделей систем извлечения информации и выявлены их недостатки, что позволяет оптимизировать научные исследования в области извлечения сложных связей смысловой информации из текста независимо от предметной области.

2. Предложена методика формулирования правил извлечения, основанная на концепции независимости от предметной области посредством использования языковых конструкций, позволяющая реализовать принцип максимизации пертинентности.

3. Разработаны модель и алгоритмы для извлечения сложных структурных связей из неструктурированного текста, что позволяет повысить релевантность запросов.

4. Предложена модель поиска персональной информации в глобальной сети, позволяющая повысить эффективность устранения неоднозначности в результатах.

5. Разработана поисково-информационная система, основанная на онтологиях, для извлечения и семантического представления структурированной информации из неструктурированного текста, которая позволяет извлечь, представить и изобразить предметно-специфическую информацию из необработанного текста, в виде сложных связей.

Список литературы диссертационного исследования кандидат технических наук Манучарян, Левон Ашотович, 2012 год

1. Зольников В.К., Манучарян, Л.А. Алгоритм извлечения информации из неструктурированного текста согласно модели онтологии Текст. / В.К. Зольников, Л.А. Манучарян // Моделирование систем и процессов. — 2012. -№2. - С. 60-64.

2. Зольников В.К., Манучарян, Л.А. Валидация извлеченной информации на основе онтологического описания Текст. / В.К. Зольников, Л.А. Манучарян // Моделирование систем и процессов. 2012. - №3. - С. 54-59.

3. Зольников В.К., Манучарян, Л.А. Преобразование информации, извлеченной из неструктурированного текста, в виде RDF триплетов Текст. / В.К. Зольников, Л.А. Манучарян // Моделирование систем и процессов. -2012.-№2.-С. 64-69.

4. Манучарян, Л.А. Извлечение персональной информации из сети Текст. / Л.А. Манучарян // Информация и безопасность. 2011. -№3 (14). - С. 417424.

5. Манучарян, Л.А. Извлечение информации из текста: прогнозирование связей между заданной парой сущностей Текст. / Л.А. Манучарян // Современные проблемы науки и образования. 2011. - №6. - URL: http://www.science-education.ru/100-4989

6. Манучарян, Л.А. Неточности при извлечении информации из нетруктурированного текста Текст. / Л.А. Манучарян // Вестник инженерной академии Армении. Ереван, 2011.-№3 (8).-С. 553-557

7. Манучарян, J1.A. Система извлечения информации из необработанного текста Текст. / JI.A. Манучарян // Журнал научных публикации аспирантов и докторантов. -2011.- №9. С. 100-102.

8. Манучарян, JI.A. Определение правил грамматического разбора для извлечения смысловой информации из неструктурированных данных с использованием онтологий Текст. / JI.A. Манучарян // Моделирование систем и процессов. 2011. - №1-2. - С. 44-46.

9. Манучарян, JI.A. Формулирование правил для извлечения сложных связей с внутренними предложениями из необработанного текста Текст. / JI.A. Манучарян // Моделирование систем и процессов. 2011. - №1-2. - С. 4749.

10. Манучарян, JI.A. Алгоритмы по обучению правилам извлечения информации Текст. / JI.A. Манучарян // Научная перспектива. 2011. -№9. - С. 82-84.

11. Манучарян, JI.A. Формулирование правил для извлечения сложных связей ин необработанного текста в случае с модификаторами, неявно определяющими значение связи Текст. / J1.A. Манучарян // Научная перспектива. 2011. - №9. - С. 85-87.

12. Манучарян, JI.A. Оптимизация производительности систем извлечения информации Текст. / JI.A. Манучарян // Альманах современной науки и образования. 2011. - №9. - С. 35-37.

13. Манучарян, JI.A. Системы извлечения информации, основанные на правилах: (LP)2 Текст. / JI.A. Манучарян // Моделирование систем и процессов. 2011. - №3-4. - С. 84-86.

14. Манучарян, JI.A. Системы извлечения информации, основанные на оберточной индукции: BWI и Wien Текст. / J1.A. Манучарян // Моделирование систем и процессов. 2011. -№3-4. - С. 87-89.

15. Манучарян, Л.А. Оптимизация производительности систем извлечения информации Текст. / Л.А. Манучарян // Обзор системы по извлечению подклассов из глобальной сети. 2011. - № 10. - С. 52-54.

16. Манучарян, Л.А. Извлечение информации из текста: прогнозирование связей между заданной парой сущностей Текст. / Л.А. Манучарян // Современные проблемы науки и образования 2011. - №7. - С. 38-44.

17. Манучарян, Л.А. Проблемы при извлечении смысловой информации из неструктурированного текста Текст. / Л.А. Манучарян // 59 международная молодежная научно-техническая конференция. г. Владивосток, 2012. - С. 54-56.

18. Рабинович Павел Давидович. Исследование и разработка моделей, алгоритмов и программного обеспечения в компьютерных обучающих системах :

19. Дис. . канд. техн. наук : 05.13.18 Москва, 2005 150 с. РГБ ОД, 61:06-5/256

20. Сидорова Елена Анатольевна. Методы и программные средства для анализа документов на основе модели предметной области :дис. . канд. физ.-мат. наук : 05.13.11 Новосибирск, 2006 125 с. РГБ ОД, 61:07-1/336

21. Хлопотов Михаил Викторович. Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей :

22. Дис. . канд. техн. наук : 05.13.11 : Уфа, 2004 135 с. РГБ ОД, 61:05-5/909

23. Шушакова Анна Геннадьевна. Исследование методов представления и обработки знаний средствами дескриптивной логики :диссертация . кандидата физико-математических наук : 05.13.17.-Переславль-Залесский, 2002.- 96 е.: ил. РГБ ОД, 61 03-1/637-6

24. М. Bates, R. М. Weischedel. Challenges in natural language processing. Cambridge University Press.

25. S. Soderland, Learning information extraction rules for semi-structured and free text, Machine Learning, 34, 233-272, 1999.

26. Califf, M. E., & Mooney, R. J. (2003). Bottom-up relational learning of pattern matching rules for information extraction. Journal of Machine Learning Research, Vol.4, pp. 177-210.

27. Kushmerick, N., Weld, D. S., & Doorenbos, R. (1997). Wrapper induction for information extraction. In Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI'97), pp.729-737.

28. Muslea, I., Minton, S., & Knoblock, C. (1998). STALKER: Learning extraction rules for semi-structured, web-based information sources. In AAAI Workshop on AI and Information Integration, pp.74-81.

29. McCallum, A., Freitag, D., & Pereira, F. (2000). Maximum Entropy Markov Models for information extraction and segmentation. In Proceedings of the 17th International Conference on Machine Learning (ICML'00), pp.591-598.

30. Vapnik, V. (1998). Statistical Learning Theory. Springer Verlage, New York, 1998.

31. Boser, B. E., Guyon, I. M., & Vapnik, V. N. (1992). A training algorithm for optimal margin classifiers. In D. Haussler (Eds.) 5th Annual ACM Workshop on COLT (pp. 144-152). Pittsburgh, PA: ACM Press.

32. Ghahramani, Z., & Jordan, M. I. (1997). Factorial Hidden Markov Models. Machine Learning, Vol.29, pp.245-273.

33. McCallum, A., Freitag, D., & Pereira, F. (2000). Maximum Entropy Markov Models for information extraction and segmentation. In Proceedings of the 17th International Conference on Machine Learning (ICML'00), pp.591-598.

34. Lafferty, J., McCallum, A., & Pereira, F. (2001). Conditional Random Fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of the 18th International Conference on Machine Learning (ICML'01), pp.282-289

35. URL: http://en.wikipedia.org/wiki/Viterbialgorithm.41.URL:http://en.wikipedia.Org/wiki/Constructionsoflowdiscrepancysequences#TheH ammersleyset.

36. J. N. Darroch, D. Ratcliff. Generalized Iterative Scaling for Log-Linear Models. The Annals of Mathematical Statistics, Vol. 43, No. 5. (1972), pp. 1470-1480.

37. Jonathan Richard Shewchuk. An Introduction to the Conjugate Gradient Method without the Agonizing Pain, Edition 11/4. School of Computer Science, Carnegie Mellon University, Pittsburgh, PA 15213, August 4, 1994

38. Nocedal, J., & Wright, S. J. (1999). Numerical optimization. New York, USA: Springer press.

39. Sha, F., & Pereira, F. (2003). Shallow parsing with Conditional Random Fields. In Proceedings of Human Language Technology, NAACL, pp.188-191.

40. Collins, M. (2002). Discriminative training methods for Hidden Markov models: theory and experiments with Perceptron algorithms. In Proceedings of the Conference on Empirical Methods in NLP (EMNLP'02).

41. Freitag, D. (1998). Information extraction from HTML: Application of a general machine learning approach. In Proceedings of the 15th Conference on Artificial Intelligence (AAAI'98), pp.517-523

42. Freitag, D., & Kushmerick, N. (2000). Boosted wrapper induction. In Proceedings of 17th National Conference on Artificial Intelligence, pp.577-583

43. Kauchak, D., Smarr, J., & Elkan, C. (2004). Sources of success for boosted wrapper induction. The Journal of Machine Learning Research. Vol.5, pp. 499527. MA: MIT Press.

44. G. Neumann and F. Xu. Intelligent Information Extraction. LT-lab, DFKI, Germany, 2004

45. Unified Medical Language System. URL: http://www.nlm.nih.gov/research/umls.

46. Medical Subject Headings.URL: http://www.nlm.nih.gov/mesh

47. Calais. URL: http://en.wikipedia.org/wiki/Calais (Reuters Product)

48. Critical Assessment of Information Extraction Systems in Biolog, URL: http://www.mitre.org/public/biocreative.

49. E. Rilo. Automatically constructing a dictionary for information extraction tasks. Proceedings of the 11th National Conference on Artificial Intelligence, AAAI-93: 811816,1993.

50. J. Kim and D. Moldovan. Acquisition of linguistic patterns for knowledge-based information extraction. IEEE Transactiops on Knowledge and Data Engineering, 7(5): 713724, 1995.

51. S. Soderland, et al. Crystal: Inducing a conceptual dictionary. Proceedings of the 14th International Joint Conference on Artificial Intelligence, IJCAI-95: 13141319, 1995.

52. C. Ramakrishnan, K. J. Kochut and A.P. Sheth. A Framework for Schema-Driven Relationship Discovery from Unstructured Text. International Semantic Web Conference: 583-596, 2006.

53. C. Ramakrishnan, P. N. Mendes, S. Wang and A. P. Sheth. Unsupervised Discovery of Compound Entities for Relationship Extraction. Lecture Notes in Computer Science, Springer Berlin / Heidelberg, Vol. 5268/2008: 146-155, 2008.

54. J. Saric, L. J. Jensen, R. Ouzounova, I. Rojas and P. Bork. Extraction of regulatory gene/protein networks from Medline. Bioinformatics, Vol. 22 no. 6: 645650, 2006

55. Q. N. Rajput, S. Haider, N. Touheed. Information Extraction from Unstructured and Ungrammatical Data Sources for Semantic Annotation. World Academy of Science, Engineering and Technology, 2009.

56. C. Friedman, et al. GENIES: a natural-language processing system for the extraction of molecular pathways from journal articles. Bioinformatics, Vol. 17 Suppl. 1: 1367-4803,2001

57. K. Fundel, R. Kuner and R. Zimmer. RelExRelation extraction using dependency parse-trees. Bioinformatics, Vol. 23 no. 3: 365371, 2007

58. S. Blohm and P. Cimiano. Scaling up pattern induction for web relation extraction through frequent itemset mining. Proc. of the KI 2008 Workshop on Ontology-Based Information Extraction Systems, 2008

59. Description Logics, URL http://dl.ki-.org.

60. F-logic. URL: http://en.wikipedia.org/wiki/F-logic.

61. Part-of-speech tagging. URL: http://en.wikipedia.org/wiki/Part-of-speech-tagging.

62. M. C. Marnee, B. MacCartney and C. D. Manning. Generating Typed Dependency Parses from Phrase Structure Parses, In LREC, 2006.

63. Domain and upper ontologies. URL: http://en.wikipedia.org/wiki/Ontology (information science).

64. Linked Data. URL: http://linkeddata.org.

65. D. S. Kim, K. Barker and B. Porter. Knowledge integration across multiple texts. Proceedings of the fifth international conference on Knowledge capture: 49-56, 2009.

66. D. S. Kim and B. Porter. Integrating declarative knowledge: Issues, algorithms and future work. Proceedings of the Spring AAAI Symposium Series, 2008.

67. RDF Semantics. URL: http://www.w3.Org/TR/rdf-mt/#Reif.

68. N. Bach and S. Badaskar. A survey on relation extraction. Language Technologies Institute, Carnegie Mellon University, 2007

69. P. Cimiano, A. Pivk, L. Schmidt and S. Staab. Learning taxonomic relations from heterogeneous evidence. Ontology Learning from Text: Methods, evaluation and applications, IOS Press, 2005

70. S. Blohm and P. Cimiano. Scaling up pattern induction for web relation extraction through frequent itemset mining. Proc. of the KI 2008 Workshop on Ontology-Based Information Extraction Systems, 2008

71. A. Yates, et al. TextRunner: open information extraction on the web. Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: 25-26, 2007

72. E. Agichtein and L. Gravano. Snowball: extracting relations from large plain-text collections. Proceedings of the fifth ACM conference on Digital libraries: 85-94, 2000

73. D. Zelenko, C. Aone, and A. Richardella. Kernel methods for relation extraction. JMLR, 2003

74. R. McDonald, et al. Simple algorithms for complex relation extraction with applications to biomedical IE. Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics: 491-498, 2005

75. R. McDonald, K. Lerman, and F. Pereira. Multilingual Dependency Parsing with a Two-Stage Discriminative Parser. Tenth Conference on Computational Natural Language Learning (CoNLL-X), 2006.

76. The Stanford Parser: A statistical parser. URL: http://nlp.stanford.edu/software/lex-parser.shtml.

77. Natural Language Toolkit (NLTK). URL: http://www.nltk.org/.

78. SPARQL.URL: http://www.w3.org/TR/rdf-sparql-query.

79. C. Ramakrishnan, P. N. Mendes, S. Wang and A. P. Sheth. Unsupervised Discovery of Compound Entities for Relationship Extraction. Lecture Notes in Computer Science, Springer Berlin / Heidelberg, Vol. 5268/2008: 146-155, 2008.

80. A. Niculescu-Mizil and R. Caruana, "Predicting good probabilities with supervised learning," in ICML, 2005.

81. R. Gupta and S. Sarawagi, "Curating probabilistic databases from information extraction models," in Proceedings of the 32nd International Conference on Very Large Databases (VLDB), 2006.

82. A. McCallum and B. Wellner, "Toward conditional models of identity uncertainty with application to proper noun coreference," in Proceedings of the IJCAI-2003 Workshop on Information Integration on the Web, pp. 79-86, Acapulco, Mexico, August 2003

83. I-I. Pasula, В. Marthi, В. Milch, S. Russell, and I. Shpitser, "Identity uncertainty and citation matching," in Advances in Neural Processing Systems 15, Vancouver, British Columbia: MIT Press, 2002.

84. Chen, Y., Lee, S. Y. M., & Huang, C. R.2009. Polyuhk: A robust information extraction system for web personal names. 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference.

85. Balog, K., Azzopardi, L., & Rijke, M. de. 2005. Resolving person names in web people search. Weaving services and people on the World Wide Web, стр. 301323.

86. Manning, D. C., Raghavan, P., & Schutze, H. 2008. Hierarchical Clustering. Introduc-tion to Information Retrieval. Cambridge University Press, New York, 2008, стр. 377-401.

87. Popescu, O., & Magnini, B.2007. Irst-bp: Web people search using name entities. Pro-ceedings of the Fourth International Work-shop on Semantic Evaluations (SemEval-2007), (June), стр. 195-198.

88. Han, X., & Zhao, J. 2009. CASIANED: Web Personal Name Disambiguation Based on Professional Categorization. 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference, стр. 2-5.

89. Long, С., & Shi, L. 2010. Web person name disambiguation by relevance weighting of extended feature sets. Third Web People Search Evaluation Forum (WePS-3), CLEF (Том. 2010, стр. 1-13).

90. Karypis, G., & Kumar, V.1999. Chameleon: hierarchical clustering using dynamic mod-eling. Computer, 32(8), 68-75. doi: 10.1109/2.781637.

91. Tombros, A. and Sanderson, M. Advantages of query biased summaries in information retrieval. Proceedings of the 21st annual in-ternational ACM SIGIR conference on Re-search and development in information re-trieval, ACM (1998), стр. 2-10.

92. Описание TF-IDF, http://ru.wikipedia.org/wiki/Tf/oE2%80%93idf

93. Unified Medical Language System. URL: http://www.nlm.nih.gov/researcli/uiTils

94. Medical Subject Headings. URL: http://www.nlm.nih.gov/mesh.

95. An Introduction to Jena RDF API. URL: http://jena.sourceforge.net/tutorial/RDF-API/index.html.

96. The Stanford Parser: A statistical parser, http://nlp.stanford.edu/software/lex-parser.shtml. URL http://nlp.stanford.edu/software/lex-parser.shtml.

97. M. C. Marnee, B. MacCartney and C. D. Manning. Generating Typed Dependency Parses from Phrase Structure Parses. In LREC, 2006.

98. K. Anyanwu, A. P. Sheth. Rho-Queries: enabling querying for semantic associations on the semantic web. WWW: 690-699, 2003.

99. G. A. Miller. WordNet: A Lexical Database for English. Communications of the ACM, Vol. 38, No. 11: 39-41, 1995.

100. W. Salloum. A Question Answering System based on Conceptual Graph Formalism. KAM, 2009.

101. K. Anyanwu, A. P. Sheth. Rho-Queries: enabling querying for semantic associations on the semantic web. WWW: 690-699, 2003.

102. C. Ramakrishnan, W. H. Milnor, M. Perry and A. P. Sheth. Discovering informative connection subgraphs in multi-relational graphs. SIGKDD Explorations 7(2): 56-63, 2005.

103. P. Gawrysiak, et al. Text Onto Miner A Semi Automated Ontology Building System. Lecture Notes in Computer Science, Springer Berlin / Heidelberg, Vol. 4994/2008, 2008.

104. R. Valencia-Garcia, et al. An Approach for Ontology Building from Text Supported by NLP Techniques. Lecture Notes in Computer Science, Springer Berlin / Heidelberg, Vol. 3040/2004, 2004.

105. Метод опорных векторов (SVM). URL: http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1 %82%D0%BE%D0%B4% DO%BE%DO%BF%DO%BE%D 1 %80%D0%BD%D 1 %8B%D 1 %85%D0%B2% D0%B5%D0%BA%D 1 %82%D0%BE%D 1 %80%D0%BE%D0%B2.

106. Теорема Байеса. URL: http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1 %80%D0%B5% DO%BC%DO%BO%DO%91 %D0%B0%D0%B9%D0%B5%D 1 %81 %D0%B0.

107. Expectation maximization algorithm. URL: http://en.wikipedia.org/wiki/ExpectationMaximization.

108. Penn Treebank notation. URL: http://www.cis.upenn.edu/~treebank/.

109. ООО «SCEONDEV» SCE ON. «SCEONDEV» LLC

110. Республика Армения, г.Ереван, ул. Сарьяна 12, тел./факс 060522-922 12 Saryan st, Yerevan, RA, tel/fax 060-522-92226» июля 2012 г.1. АКТ ВНЕДРЕНИЯ1. Наименованиеорганизационно-практических мероприятий

111. Внедрение модели системы поиска персональной информации, основанная на текстовой кластеризации по тематическим признакам.1. Авторы разработки

112. Док. техн. наук, проф. Зольников В.К., аспирант Манучарян Л.А. -ФГБОУ ВПО «Воронежская государственная лесотехническая академия»

113. Наименование объекта внедрения1. ООО «8сеопОеу»

114. Практический эффект Внедрение разработанной модели в инноваторскуюинформационно-поисковую систему "Агт-Рег5опРтс1ег" позволило повысить эффективность поисковых результатов системы на 7.1% по данным тестирования.1. УТВЕРЖДАЮ»

115. Ректор ВГЛТА^д.т.н., проф.с- ■ В.м. Бугаков2012 г.-

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.