Модели и методы поиска информационных ресурсов с использованием семантических технологий тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Нгуен Ба Нгок

  • Нгуен Ба Нгок
  • кандидат технических науккандидат технических наук
  • 2012, Томск
  • Специальность ВАК РФ05.13.11
  • Количество страниц 198
Нгуен Ба Нгок. Модели и методы поиска информационных ресурсов с использованием семантических технологий: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Томск. 2012. 198 с.

Оглавление диссертации кандидат технических наук Нгуен Ба Нгок

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА.

1.1. Постановка задачи информационного поиска.

1.2. Классические модели информационного поиска.

1.2.1. Булевый поиск.

1.2.2. Модель векторного пространства.

1.2.3. Вероятностная модель.

1.3. Дополнительные модели информационного поиска.

1.3.1. Модель нечетких множеств.

1.3.2. Модель обобщенного векторного пространства.

1.4. Оценки эффективности системы информационного поиска.

1.4.1. Полнота и точность.

1.4.2. Нормализованное расстояние между результатами.

1.5. Выводы.

ГЛАВА 2. ПРИМЕНЕНИЕ СЕМАНТИЧЕСКИХ ТЕХНОЛОГИЙ В РЕШЕНИИ ЗАДАЧИ ПОИСКА ИНФОРМАЦИИ.

2.1. Семантические технологии.

2.1.1. Мотивация.

2.1.2. Методы представления знаний.

2.1.3. Классификация онтологии.

2.2. Подходы поиска информации на основе семантики.

2.2.1. Семантические методы, разрабатываемые в области информационного поиска.

2.2.2. Методы семантического поиска, разрабатываемые в области создания семантической веб-сети.

2.2.3. Классификации подходов семантического поиска.

2.2.4. Ограничения подходов семантического поиска.

2.3. Выводы.

ГЛАВА 3. ПРЕДЛАГАЕМАЯ МОДЕЛЬ СЕМАНТИЧЕСКОГО ПОИСКА ИНФОРМАЦИИ НА ОСНОВЕ МЕТАОПИСАНИЙ.

3.1. Семантическое обеспечение системы.

3.1.1. Математическая модель онтологии предметной области.

3.1.2. Семантические модели объектов знания.

3.2. Логические представления документов и запросов.

3.2.1. Набор триплетов.

3.2.2. Концепция RDF-графов.

3.3. Методы семантической близости.

3.3.1. Оценка семантической близости между компонентами триплетов.

3.3.2. Семантическая близость между триплетами.

3.3.3. Семантическая близость между документами и запросами.

3.4. Пример вычисления семантической близости.

3.5. Оптимизация обработки запросов.

3.6. Выводы.

ГЛАВА 4. АРХИТЕКТУРА СИСТЕМЫ СЕМАНТИЧЕСКОГО ПОИСКА.

4.1. Общая схема процесса поиска информации.

4.2. Формирование метаописаний.

4.2.1. Ручное формирование метаописаний.

4.2.2. Полуавтоматическое формирование метаописаний.

4.3. Структуры индексов и алгоритмы индексирования.

4.3.1. Поиск элементов онтологии с помощью SPARQL-запросов.

4.3.2. Оптимизация хранения триплетов с использованием числовых идентификаторов.

4.3.3. Индексирования базы знания с помощью системы Lucene.

4.3.4. Представление онтологии предметной области в виде графа.

4.3.5. Индексирование метаописаний.

4.4. Программная реализация.

4.5. Выводы.

ГЛАВА 5. ИССЛЕДОВАНИЯ АЛГОРИТМОВ.

5.1. Метод оптимизации хранения набора триплетов.

5.1.1. Эксперимент 1: объем оперативной памяти.

5.1.2. Эксперимент 2: время поиска триплета.

5.2. Алгоритмы вычисления семантической близости.

5.2.1. Эксперимент 3: оценка близости между понятиями.

5.2.2. Эксперимент 4: близость между метаописаниями.

5.4. Выводы.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модели и методы поиска информационных ресурсов с использованием семантических технологий»

Задача поиска информационных ресурсов заключается в нахождении информации, соответствующей потребностям пользователей. Исследования по решению данной задачи начались еще в середине прошлого века вскоре после изобретения электронно-вычислительных машин (ЭВМ).

Вначале поиск информации был небольшой научной и прикладной областью, в которой работало незначительное количество ученых. Бурный рост глобальной сети Интернет (в особенности Web-cera) в конце прошлого - начале нынешнего века стал мощнейшим стимулом развития данной дисциплины. Современный информационный поиск - это миллионы пользователей, огромные объемы данных, мощные вычислительные системы, сложные алгоритмы. Для решения задачи поиска информации привлекаются методы машинного обучения, анализа мультимедийной информации, компьютерная лингвистика, геоинформационные сервисы, исследуется психология пользователей и их социальные связи, и т.д.

Большинство существующих систем информационного поиска базируются на общих механизмах, в соответствии с которыми для выполнения поиска пользователи вводят запрос, описывающий информационные потребности, состоящие из набора терминов. После обработки такого запроса поисковая система должна вернуть документы (или ссылки на документы), содержащие термины, заданные в запросе пользователя. При этом терминами являются либо специальные ключевые слова, либо любые слова - строковые литералы, которые встречаются в содержании коллекции документов. Такой метод поиска информации считается классическим методом, или методом поиска информации с использованием ключевых слов.

Проблеме разработки таких методов поиска посвящены работы зарубежных авторов: Рикардо Баеса-Ятеса (.Ricardo Baeza-Yates), Сергея Брина (iSergey Brin), Шандора Доминича {Sandor Dominich), Джеральда Ковальски {Gerald Kowalski), Кристофера Маннинга (Christopher Manning), Ларри Пейджа (Larry Page), а также российских ученых: А. Ю. Воложа, В. К. Иванова, Е. С. Колмановской, Г. В. Никитина, В. Н. Романенко, И. В. Сегановича.

Ограниченность классических систем поиска информации связана с отсутствием возможности понимания ими базовой концептуализации информационных потребностей пользователей и смысла искомых документов. Отсюда возникают следующие две фундаментальные проблемы информационного поиска:

1) синонимичность терминов - можно использовать различные термины для обозначения одного понятия (например «машина» и «автомобиль»). Следовательно, документы, использующие термины, которые не совпадают с терминами запроса, не будут найдены при поиске;

2) многозначность терминов - один термин может иметь много значений (например, «лук» как овощ или «лук» как спортивный инвентарь). В связи с этой проблемой система может возвращать нерелевантные результаты.

Кроме того, эти системы обычно не учитывают семантические отношения между терминами, из-за чего классические системы информационного поиска не способны найти документы, которые являются релевантными по смыслу, но не содержат термины запроса.

Для решений указанных проблем классического метода поиска информации требуется работать с семантиками документов, для чего обычно используются семантические модели знаний предметной области и семантические технологии. При этом предлагается представить документы на более высоком концептуальном уровне с использованием понятий из семантических моделей знаний предметной области. Методы информационного поиска, в которых учитываются семантики документов, обычно называются методами семантического поиска информации.

Необходимость использования семантических моделей (концептуализации) для улучшения качества поиска была отмечена в работе [51] еще в 1986 г., но проблема семантического поиска еще далека от своего решения. Актуальными являются задачи семантической обработки неструктурированных электронных ресурсов, к которым относятся разработка методов описания их семантики с использованием моделей знаний предметной области и методов оценки семантической близости между ними. Этому посвящены работы следующих зарубежных ученых: Раманатана Гуха (Ramanathan Guha), Брюса Крофта {Bruce Croft), Джорда Миллера {George Miller), а также российских ученых: Б. В. Доброва, Н. В. Лукашевича, А. Ф. Тузовского, В. 3. Ямпольского.

В связи с актуальностью этих технологий, данная диссертационная работа посвящена развитию методов семантического поиска информации с использованием онтологических моделей и семантических технологий. Целью диссертационной работы является разработка комплекса моделей, методов и алгоритмов выполнения поиска информационных ресурсов на основе использования онтологических моделей и семантических технологий.

Для достижения цели необходимо было решить следующие задачи:

1) Разработать метод описания документов и запросов (их системные представления) с использованием онтологических моделей, которые позволяют выполнять работу с их семантикой;

2) Разработать алгоритм вычисления семантической близости между метаописаниями документов и запросов;

3) Разработать методы повышения эффективности выполнения поиска с использованием предложенного метода описания документов и оценки близости между ними.

4) Разработать программную реализацию поиска информационных ресурсов с использованием семантических метаописаний и онтологий.

Объектом исследования является процесс поиска пользователями интересующих их информационных ресурсов в локальных компьютерных сетях.

Предметом исследования - методы и алгоритмы выполнения поиска информационных ресурсов с использованием семантических технологий для реализации концепции семантического поиска информации.

Методы исследования. При выполнении диссертационной работы использовались методы математической логики, семантического моделирования, математического моделирования, системного анализа и проведения и обработки экспериментов с использованием экспертных оценок.

Научная новизна диссертационной работы заключается в следующем:

1) Разработана новая модель семантического поиска с использованием онтологических моделей знаний. В отличие от существующих моделей поиска информации, в разработанной модели документы и запросы описываются с использованием простых фраз, составленных на основе онтологических моделей знаний предметной области (их метаописания), а для обработки запросов используются оценки семантической близости между метаописания-ми. Предложенный подход поиска информации является особенно актуальным в тех случаях, когда требуется описывать сложные информационные потребности и обеспечить высокую точность поиска документов.

2) Разработаны новые методы вычисления семантической близости между метаописаниями, триплетами и компонентами триплетов. Выполнено теоретическое обоснование и экспериментальные проверки предложенных методов вычисления семантической близости.

3) Разработан эффективный метод поиска текстовых меток элементов онтологии в документах, который востребован для реализации метода полуавтоматического создания метаописаний.

4) Разработан новый метод оптимизации хранения наборов триплетов с использованием числовых идентификаторов и метод сжатия без потери для словаря ^/-идентификаторов. Использование разработанных методов позволяет значительно сократить требуемые объемы памяти. Данная задача является особенно актуальной в тех случаев, когда требуется хранить онтологии предметных областей полностью (или большую их часть) в оперативной памяти для обеспечения быстрого вычисления оценок близости.

5) Разработана новая архитектура программной системы семантического поиска на основе метаописаний. Описаны базовые функции системы и структуры данных необходимых индексов для её работы.

Практическая значимость диссертационной работы заключается в возможности использования разработанных методов, алгоритмов и прототипов программного обеспечения для выполнения семантического поиска информации на основе онтологий в информационных системах организаций. Разработанные алгоритмы вычисления близости также могут быть применены для решения таких задач, как классификация семантических данных, автоматическое разрешение многозначности терминов и т.п.

Предложенные в диссертационной работе модель и алгоритмы поиска информации были внедрены в учебном процессе Кафедры оптимизации систем управления Института кибернетики, а также использованы в одной вьетнамской компании «Nam Thanh» Limited Liability и двух российских компаниях ООО «Мегаполис» и ООО «Томский завод резиновой обуви» для разработки программных продуктов (приложение 3).

Получено два свидетельства Роспатента на программное обеспечение разработанное в рамках выполнения диссертационной работы: «TST - инструментальное программное обеспечение для организации поиска по семантическим метаописаниям» [17] и «Triple - редактор семантических метаданных» [18] (приложение 3).

На защиту выносятся следующие результаты:

1) новая модель семантического поиска на основе метаописаний, формируемых на основе онтологической модели;

2) эффективные алгоритмы вычисления близости между метаописаниями, триплетами и компонентами триплетов;

3) метод оптимизации хранения триплетов с использованием числовых идентификаторов и метод сжатия без потери для словаря URI-идентификаторов;

4) метод автоматического выделения текстовых меток элементов онтологии в документе;

5) новая архитектура построения системы семантического поиска информационных ресурсов.

Личный вклад автора. Все выносимые на защиту результаты получены автором лично.

Апробация работы. Основные положения и отдельные результаты исследования докладывались и обсуждались на следующих конференциях:

1) VI Международная научно-практическая конференция «Электронные средства и системы управления» (Томск, 2010);

2) IV университетская научно-практическая конференция иностранных студентов, магистрантов и аспирантов, обучающихся в ТПУ «Коммуникация иностранных студентов, магистрантов и аспирантов, в учебно-профессиональной и научной сферах» (Томск, 2010);

3) Интеллектуальные информационно-телекоммуникационные системы для подвижных и труднодоступных объектов (Томск, 2010);

4) IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых с международным участием «Молодежь и современные информационные технологии» (Томск, 2011);

5) VIII Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2011);

6) IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2012).

Структура и объем диссертации. Диссертация содержит введение, 5 глав, список литературы (156 наименований) и 3 приложения. Общий объем диссертации составляет 198 страниц, включающих 16 таблиц и 38 рисунков.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Нгуен Ба Нгок

5.4. Выводы

Описаны результаты экспериментов для проверки эффективности предложенного метода оптимизации хранения коллекции триплетов с использованием числовых идентификаторов, и результаты экспериментов для проверки предложенных алгоритмов вычисления близости. Полученными результатами экспериментов подтверждают следующие выводы:

1) Использование числовых идентификаторов для представления триплетов позволяет одновременно значительно сократить требуемые объемы памяти для хранения наборов триплетов и повысить скорости поиска триплетов в коллекциях.

2) Предложенные алгоритмы вычисления семантической близости обеспечивают эффективность достаточную для их использования в системах семантического поиска на основе метаописаний.

3) Использование предложенной модели информационного поиска позволяет получить высокое качество поиска.

Следующим шагом исследования является разработка метода распараллеливания предложенных алгоритмов для обработки большого объема данных с использованием вычислительных кластеров.

Заключение

В рамках выполнения данной диссертационной работы сформированы теоретические и практические основы для решения задачи семантического поиска информации в различных предметных областях. К основным полученным результатам относятся следующие:

1) Разработана модель семантического поиска информации с использованием онтологический моделей знаний и метода представления документов и запросов в виде семантических метаописаний.

2) Предложены методы вычисления семантической близости между ме-таописаниями, между триплетами и между компонентами триплетов;

3) Проведены эксперименты для проверки качества предложенных алгоритмов, которые используются для вычисления близости.

4) Разработан метод оптимизации хранения коллекции триплетов с использованием числовых идентификаторов, предложен специализированный метод сжатия без потери для словаря ¿//^-идентификаторов.

5) Проведены эксперименты для проверки эффективности предложенного метода хранения триплетов с использованием числовых идентификаторов и алгоритма сжатия словари ¿//«'/-идентификаторов.

6) Разработан метод быстрого выделения текстовых меток элементов онтологии, а также рассмотрены возможности его применения в задаче полуавтоматического создания метаописаний.

7) Разработана архитектура системы семантического поиска информации на основе метаописаний, предложены структуры данных для хранения индексов и алгоритмы их создания.

8) Реализовано инструментальное программное обеспечение для выполнения поиска по семантическим метаописания («7IST») на основе предложенной модели и редактор семантических метаданных («Triple»), в котором используется предложенный метод полуавтоматического создания метаописаний. Разработанное программное обеспечение официально зарегистрировано в Роспатенте.

9) Выполнено практическое внедрение основных результатов работы. Предложенная модель семантического поиска и алгоритмы вычисления близости использованы в учебном процессе Кафедры оптимизации систем управления Института кибернетики Томского политехнического университета, а также использованы: вьетнамской компанией «Nam Thanh» Limited Liability в 2011 г. для разработки подсистемы поиска профилей сотрудников; ООО «Томский завод резиновой обуви» в 2012 г. для создания подсистемы «Поиск электронных документов предприятия»; ООО «Мегаполис» (г. Томск) в 2012 г. для создания подсистемы «Поиск документов в системе электронного документооборота». Результаты опытной эксплуатации созданных подсистем подтверждают высокий уровень качества поиска документов.

Список литературы диссертационного исследования кандидат технических наук Нгуен Ба Нгок, 2012 год

1. Гэри, М. Вычислительные машины и труднорешаемые задачи / М. Гэри, Д. Джонсон. -М: Мир, 1982. 192 с.

2. Карпенко, А. П. Оценка релевантности документов онтологической базы знаний // Электронное научно-техническое издание «Наука и образование». URL: http://technomag.edu.ru/doc/157379.html (дата обращения: 23.07.2012).

3. Кнут Д. Искусство программирования / Д. Кнут. М.: Вильяме, 2000. -Т.3.-703 с.

4. Крюков, К. В. Меры семантической близости в онтологиях / К. В. Крюков, JI. А. Панкова, В. А. Пронина, JI. Б. Шипилина // Проблемы управления. 2010. - № 2. - С. 2-14.

5. Нгуен, Б. Н. Обзор подходов к семантическому поиску документов / Нгуен Ба Нгок, А. Ф. Тузовский // Доклады Томского государственного университета систем управления и радиоэлектроники. 2010 - Т. 2 - № 2. - С. 109-111.

6. Нгуен, Б. Н. Классификация текстов на основе оценки семантической близости терминов / Нгуен Ба Нгок, А. Ф. Тузовский // Известия Томского политехнического университета. 2012 - Т. 320 - № 5 - С. 43 - 48.

7. Нгуен, Б. Н. Метод семантического поиска в коллекции интеллектуальных документов / Нгуен Ба Нгок, А. Ф. Тузовский // Научно-технический вестник Поволжья. 2012 - № 2 - С. 246-254.

8. Нгуен, Б. Н. Оптимизация хранения словаря триплетов с использованием числовых идентификаторов / Нгуен Ба Нгок, А. Ф. Тузовский // Научно-технический вестник Поволжья. 2012 - № 2 - С. 235-245.

9. Нгуен, Б. Н. Обзор подходов семантического поиска / Нгуен Ба Нгок, А. Ф. Тузовский // III Всероссийский смотр научных и творческих работ иностранных студентов и аспирантов вузов. Томск, 2010. - С. 117-121.

10. Панкова, JI. А. Онтологические модели поиска экспертов в системах управления знаниями научных организаций / JI. А. Панкова, В. А. Пронина, К. В. Крюков // Проблемы управления. 2011. - № 6. - С. 52-60.

11. Тузовский, А. Ф. Онтолого-семантические модели в корпоративных системах управления знаниями: дис. д-тр. тех. наук / А. Ф. Тузовский. -Томск, 2007.-С. 175-182.

12. Agirre, Е. Word sense disambiguation using conceptual density / E. Agirre, G. Rigau // Proc. of COLING 96. Copenhagen, Denmark, 1996. pp. 16-22.

13. Agosti, M. An approach to conceptual modelling of IR auxiliary data / M. Agosti, F. Crestani, G. Gradenigo, P. Mattiello // IEEE Inter. Conf. on Computer and Communications. Arizona, USA, 1990. - pp. 500-505.

14. Agosti, M. Automatic authoring and construction of hypertext for Information Retrieval / M. Agosti, M. Melucci, F. Crestani // ACM Multimedia Systems. 1995.-pp. 15-24.

15. Andreasen, T. Domain-specific similarity and retrieval / T. Andreasen, R. Knappe, H. Bulskov //11th Int. Fuzzy systems association world congress. V. l.-P. 496-502.

16. Andreasen, T. Similarity from conceptual relations / T. Andreasen, H. Bulskov, R. Knappe // 22nd Int. Conf. of the North American Fuzzy Information processing society. Chicago, USA, 2003. - pp. 179 - 184.

17. Ask Jeeves. Homepage of the Ask search engine // Доступ осуществлен 16.08.2012 по адресу http://www.ask.com/.

18. Baeza-Yates, R. Modem information retrieval / R. Baeza-Yates, B. Ribeiro-Neto // Wokingham, UK: Addison-Wesley. 1999. 517 p.

19. Balabanovic, M. Content-based, collaborative recommendation / M. Balabanovic, Y.F. Shoham // Communication of the ACM. 1997. - V. 40, № 3. -pp. 66 - 72.

20. Baziz, M. Semantic cores for representing documents in information retrieval / M. Baziz, M. Boughanem, N. Aussenac-Gilles, C. Chrisment // In Proc. Of 2005 ACM symposium on applied computing. New Mexico, 2005. - pp. 1011— 1017.

21. Bernstein, A. Gino a guided input natural language ontology editor / A. Bernstein, E. Kaufmann // 5th Inter. Semantic Web Conf. - Athens: Springer Verlag, 2006.-pp. 144-157.

22. Bondy, J. Graph theory / J. Bondy. N. Y.: Springer, - 2008. - 651 p.

23. Budanitsky, A. Semantic distance in WordNet: an experimental, application-oriented evaluation of five measures / Budanitsky A., G. Hirst // Workshop on WordNet and other lexical resources. 2001.

24. Bulskov, H. On measuring similarity for conceptual querying / H. Bul-skov, R. Knappe, T. Andreasen // Proc. 5th Int. FQAS Conf. LNCS. Berlin: Springer, - 2002. - V. 2522. - P. 100-111.

25. Burger, J. Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A) // DARPA/NSF committee publication. 2001.

26. Castano, S. Semantic information interoperability in open networked systems / S. Castano, A. Ferrara, S. Montanelli, G. Racca // Proc. Of the Int. Conf. SNW. Paris, 2004. - P. 215-230.

27. Castells, P. Semantic Web Technologies for a Digital Newspaper Archive / P. Castells, F. Neptuno // 1st European Semantic Web Symposium (ESWS 2004). -2004. V. 3053. - pp. 445-458.

28. Chang, Y. A new query reweighting method for document retrieval based on genetic algorithms / Y. C. Chang, S. M. Chen // IEEE transactions on evolutionary computation. 2006. V. 10, № 5. - pp. 617 - 622.

29. Chapman, R. Roget's International Thesaurus / R. Chapman // NY: Harper and Row, 1977.

30. Chen, H. Automatic construction of networks of concepts characterizing document databases / H. Chen, K.J. Lynch // IEEE Trans, on Systems, Man and Cybernetics. 1992. - V. 22, № 5. - pp. 885-902.

31. Chirita, P. A. Activity based metadata for semantic desktop search / P. A. Chirita, R. Gavriloaie, S. Ghita, W. Nejdl, R. Paiu // Proc. of the 2nd European Semantic Web Conference. Heraklion, Greece, 2005. - pp. 439-454.

32. Cimiano, P. Porting Natural Language Interfaces between Domains An Experimental User Study with the ORAKEL System / P. Cimiano, P. Haase, J. Heizmann // Inter. Conf. on Intelligent User Interfaces. - NY: USA, 2007. - pp. 180-189.

33. Cohen, P. Information Retrieval by constrained spreading activation on Semantic Networks / P. Cohen, R. Kjeldsen // Information Processing & Management. 1987. - pp. 255-268.

34. Cohen, S. XSEarch: A Semantic Search Engine for XML / S. Cohen, J.1. J.L

35. Mamou, Y. Kanza, Y. Sagiv // 29 Inter. Conf. on Very Large Data Bases. Berlin, Germany, 2003. - pp. 45-56.

36. Cooper, W. S. Getting beyond boole / W. S. Cooper // reading in information retrieval. 1997. - pp. 265 - 267.

37. Crestani, F. Application of Spreading Activation Techniques in Information Retrieval / F. Crestani // Artificial Intelligence Review. 1997. - V. 11, № 6.-pp. 453-482.

38. Croft, W. B. User-specified domain knowledge for document retrieval // 9th Annual Inter / W. B. Croft // ACM Conf. on Research and Development in Information Retrieval (SIGIR 1986). Pisa, Italy, 1986. - pp. 201-206.

39. Cross, V. Fuzzy information retrieval / V. Cross // Journal of Intelligent information systems. 1994. - V. 3, № 1. - pp. 29-56.

40. Crouch, C. J. An approach to the Automatic Construction of Global Thesauri / C. J. Crouch // Information Processing and Management. V. 26, № 5. -pp. 629-640.

41. Davies, J. Quizrdf: search technology for the semantic Web / J. Davies, R. Weeks, U. Krohn // workshop on RDF and Semantic Web Applications 11th Int. WWW Conf. Hawaii, USA, 2002.

42. Deerwester, S. Indexing by LSA / S. Deerwester, S.T. Dumais, G.W. Furnas, T. K. Landauer, R. Harshman // Journal of the Society for Information Science. 1990. - V. 41, № 6. - pp. 391^07.

43. Dumais, S. Latent semantic indexing (LSI) and TREC-2 / S. Dumais// 2nd Text Retrieval Conf. (TREC2). 1994. - pp. 105-116.

44. Ehrig, M. Ontology mapping an integrated approach / M. Ehrig, Y. Sure // The semantic web: Research and applications. Proc. 1st European Semantic Web Symposium. - Berlin: Springer. - V. 3053. - P. 76-91.

45. Feigenbaum, E. A. The art of artificial intelligence: Themes and case studies knowledge engineering / E. A. Feigenbaum // Inter. Joint Conf. on Artificial Intelligence. -Nagoya, Japan, 1997. pp. 1014-1029.

46. Feigenbaum, E. A. Knowledge engineering: the applied side of artificial intelligence / E. A. Feigenbaum // Symposium on Computer culture: the scientific, intellectual, and social impact of the computer. NY, USA, 1984. - pp. 91-107.

47. Fellbaum, C. WordNet: An Electronic Lexical Database / C. Fellbaum. -Cambridge: MIT Press, 1998. 423 p.

48. Fernandez, M. Semantic search meets the web / M. Fernandez, V. Lopez, M. Sabou, V. Uren, D. Vallet, E. Motta, P. Castells // Proc. of the 2nd IEEE inter, conf. on semantic computing (ICSC 2008). Santa Clara, USA, 2008. - pp. 253-260.

49. Finin, T. Information retrieval and the semantic Web / T. Finin, J. May-field, C. Fink, A. Joshi, R. S. Cost // 38th Annual Hawaii international Conference on System Sciences (Hicss'05). 2005.

50. Fuhr, N. Probabilistic models in information retrieval // The computer journal. 1992. - V. 35, № 3. pp. 243-255.

51. Haase, P. Peer selection in peer-to-peer networks with semantic topologies / P. Haase, R. Siebes, F. Harmelen // Proc. Of Int. Conf. on semantics in a networked world. Paris. - 2004. - P. 108-125.

52. Giunchiglia, F. Concept search / F. Giunchiglia, U. Kharkevich, I. Zai-hrayeu // Proc. of the 6th European SW conf. (ESWC 2009). Heraklion, Greece, 2009. - pp. 429-444.

53. Gonzalo, J. Indexing with WordNet synsets can improve Text Retrieval / J. Gonzalo, F. Verdejo, I. Chugur, J. Cigarran // COLING/ACL Workshop on Usage of WordNet for NLP. Montreal, Canada, 1998.

54. Google. The knowledge graph // Доступ осуществлен 16.08.2012 по адресу http://www.google.corn/insidesearch/features/search/knowledge.html /.

55. Gospodnetic, О. Lucene in action / О. Gospodnetic, E. Hatcher. USA.: Manning publications Co., 2010. - 486 p.

56. Gruber, T. R. Collective Knowledge Systems: Where the Social Web meets the Semantic Web // Journal of Web Semantics. 2008. - V. 6, № 1. - pp. 4-13.

57. Guha, R. V. Semantic search / R. V. Guha, R. McCool, E. Miller // Proc. of the 12th inter. WWW conf. (WWW 2003). Budapest, Hungary, 2003. - pp. 700-709.

58. Hakia. Homepage of the Hakia search engine // Доступ осуществлен 16.08.2012 по адресу http://www.hakia.com/.

59. Harabagiu, S. Falcon Boosting Knowledge for Answer Engines / S.

60. Harabagiu, D. Moldovan, M. Pasca, R. Mihalcea, M. Surdeanu, R. Bunescu, R.fh

61. Girju, V. Rus, P. Morarescu // 9 Text Retrieval Conference (Trec-9). 2000. - pp. 479-488.

62. Harbourt, A. M. Kingsland L.C. The ranking algorithm of the Coach browser for the UMLS Metathesaurus / A. M. Harbourt, E. J. Syed, W. T. Hole, L.

63. C. Kingsland // 17th Annual Symposium on Computer Applications in Medical Care. NY, USA, 1993. - pp. 720-724.

64. Herlocker, J. L. Evaluating collaborative filtering recommender systems / J. L. Herlocker, J. A. Konstan, L. G. Terveen, J. T. Riedl // ACM transactions on Informations Systems. 2004. - V. 22, № 1. - pp. 5-53.

65. Hersh, W. R. SAPHIRE An information retrieval system featuring concept matching, automatic indexing, probabilistic retrieval, and hierarchical relationships / W. R. Hersh, R. A. Greenes // Computers and Biomedical Research. -1990.-pp. 410-425.

66. Hersh, W. R. Words, concepts, or both: Optimal indexing units for autVitomated information retrieval / W. R. Hersh, D. D. Hickam, T. J. Leone //16 Annual Symposium on Computer Applications in Medical Care. Baltimore, 1992. -pp. 644—648.

67. Hirst, G. Lexical chains as Representations of context for the detection and correction of Malapropisms / G. Hirst, D. St-Onge // WordNet: an electronic lexical database. Cambridge: The MIT Press. - 1998. - P. 305-322.

68. Hovy, E. H. Question Answering in Webclopedia / E. H. Hovy, L. Gerber, U. Hermjakob, M. Junk, C. Y. Lin // TREC-9 Conf. 2000.

69. Jàrvelin, K. ExpansionTool: Concept-based query expansion and construction / K. Jàrvelin, J. Kekàlàinen, T. Niemi // Information retrieval. Springer Netherlands, 2001. - V. 22, № 1. - pp. 231-255.

70. Jiang, J. Semantic similarity based on corpus statistics and lexical taxonomy / J. Jiang, D. Conrath // Proc. Int. Conf. on Computational Linguistics. -Taiwan. 1997.-P. 19-33.

71. Joachims, T. Optimizing search engines using clickthrough data / T. Joachims // In Proc. of the eighth ACM SIGKDD int. conf. on knowledge discovery and data mining. NY, 2002. - V. 1. - pp. 133 - 142.

72. Jones, S. A. Thesaurus data model for an intelligent retrieval system / S. A. Jones // Journal of Information Science. 1993. - V. 19. - pp. 167-178.

73. Kiryakov, A. Semantic Annotation, Indexing, and Retrieval / A. Kirya-kov, B. Popov, I. Terziev, D. Manov, D. Ognyanoff// Journal of Web Semantics. -2004. V. 2, № 1. - pp. 49-79.

74. Klir, G. J. Fuzzy sets and fuzzy logic : theory and applications / G. J. Klir, B. Yuan. -N. Y.: Prentice Hall PTR, 1995. 574 p.

75. Knappe, R. Measures of semantic similarity and relatedness for use in ontology-based information retrieval: PhD thesis / R. Knappe. Roskilde University, 2006. - 143 P.

76. Knappe, R. Perspectives on Ontology-based querying / R. Knappe, H. Bulskov, T. Andreasen // Int. journal of intelligent systems. 2007. - V. 22, № 7. -pp. 739-761.

77. Kobayashi, M. Information retrieval on the web / M. Kobayashi, K. Ta-keda // ACM computing surveys. 2000. - V. 32. - pp. 144-173.

78. Landauer, T. K. A solution to Plato's problem: The Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledge / T. K. Landauer, S. T. Dumais // Psychological Review. 1997. - pp. 211-240.

79. Landauer, T. K. Introduction to LSA / T. K. Landauer, P. W. Foltz, D. Laham // Discourse Processes. 1998. - V. 25. - pp. 259-284.

80. Lay, J. A. Semantic retrieval of multimedia by concept languages: treating semantic concepts like words / J. A. Lay, G. Ling // Signal Processing Magazine, IEEE. 2006. - V. 23. - pp. 115-123.

81. Leacock, C. Combining local context and wordnet similarity for word sense identification / C. Leacock, M. Chodorow // WordNet: An electronic lexical database. Massachusetts: MIT Press. - 1998. - P. 265.

82. Letsche, T. A. Large-Scale Information Retrieval with LSA / T. A. Let-sche, M. W. Berry // Information Sciences Applications. - 1997. - V. 100, № 1-4.-pp. 105-137.

83. Levenshtein, I. V. Binary codes capable of correcting delation, insertion and revercals /1. V. Levenshtein // Cybernetics and control theory. 1966. - V. 10, № 8. - P. 707-710.

84. Lopez, V. PowerAqua: Fishing the Semantic Web / V. Lopez, E. Motta, V. Uren // European Semantic Web Conference. Montenegro. 2006.

85. Lopez, V. AquaLog: An Ontology-portable QA System for the Semantic Web / V. Lopez, M. Pasin, E. Motta // European Semantic Web Conf. Creete. -Greece, 2005. pp. 546-562.

86. Luke, S. Ontology-Based Knowledge Discovery on the WWW / S. Luke, L. Spector, D. Rager // Internet-Based Information Systems: Papers from the AAAI Workshop. Menlo Park, California, 1996. - pp. 96-102.

87. Lin, D. An information-theoretic definition of similarity / D. Lin // Proc. 15th Int. Conf. on Machine Learning. Massachusetts: Morgan Kaufmann, 1998. -P. 296-304.

88. Madala, R. The use of WordNet in information Retrieval / R. Madala, T. Takenobu, T. Hozumi // Use of WordNet in Natural Language Processing Systems. Montreal, Canada, 1998. - pp. 31-37.

89. Madala, R. Complementing WordNet with Rogert's and Corpus-basedth

90. Thesauri for Information Retrieval / R. Madala, T. Takenobu, T. Hozumi // 9 Conf. of the European Chapter of the Association for Computational Linguistics (EACL). Bergen: Norway, 1999. - pp. 94-101.

91. Maedche, A. SEmantic portAL: The SEAL Approach / A. Maedche, S. Staab, N. Stojanovic, R. Studer, Y. Sure // Spinning the Semantic Web. NY, USA: MIT Press, 2003. - pp. 317-359.

92. Maedche, A. Clustering ontology-based metadata in the Semantic Web / A. Maedche, V. Zacharias // Proc. 6th European PKDD Conf. LNCS. Berlin: Springer, 2002. - V. 2431. - P. 348-360.

93. Manning, C. D. Introduction to information retrieval / C. D. Manning, P. Raghavan, H. Schutze. N. Y.: Cambridge University Press. - 2008. - 482 p.

94. Mayfield, J. Information retrieval on the Semantic Web: Integrating inference and retrieval / J. Mayfield, T. Finin // Workshop on the Semantic Web at the 26th International ACM SIGIR Conf. on Research and Development in IR. -Toronto, Canada, 2003.

95. Miller, A. A semantic concordance / A. Miller, C. Leacock, R. Tengi, R. T. Bunker // 93rd proc. of the workshop on Human Language Technology. PA: USA, 1993.-pp. 303-308.

96. Miller, G. WordNet: A lexical database / G. Miller // Communications of the ACM, 1995.-V. 38, № 11.-pp.39-41.

97. Miller, G. Contextual correlates of semantic similarity / G. Miller, W. Charles // Language and cognitive processes. 1991. - V. 6, № 1. - P. 1-28.

98. Motta, E. MnM: Ontology-driven semi-automatic and automatic support for semantic markup / E. Motta, M. Margas-Vera, J. Domingue, M. Lanzoni,it.

99. A. Stutt, F. Ciravegna //13 Inter. Conf. on Knowledge Engineering and Knowledge Managment (EKAW02). Siguenza, Spain, 2002. - pp. 379-391.

100. Moldovan, D. LASSO: A Tool for Surfing the Answer Net / D. Mol-dovan, S. Harabagiu, M. Pasca, R. Mihalcea, R. Goodrum, R. Girju, V. Rus // Text Retrieval Conference (TREC-8). 1999.

101. Moldovan, D. Using WordNet and Lexical Operators to Improve Internet Searches / D. Moldovan, R. Mihalcea // IEEE Internet Computing. 2000. - V. 4, № l.-pp. 34-43.

102. Navigli, R. Word sense disambiguation: a survey / R. Navigli // ACM computing surveys. 2009. - V. 41, № 2. - pp. 1-69.

103. Nguyen, H. A. New semantic similarity techniques of concepts applied in the biomedical domain and wordnet / H. A. Nguyen // Thesis for the Degree Master of Science. University of Houston-Clear Lake, 2006. - 108 p.

104. Paice, C. D. A thesaural model of information retrieval / C. D. Paice // Information Processing and Management. 1991. - V. 27. - pp. 433-447.

105. Pedersen, T. Measures of semantic similarity and relatedness in the medical domain / T. Pedersen, S. Pakhamov, S. Patwardhan // University of Minnesota digital technology center research report DTC 2005/12.

106. Penin, T. Snippet generation for semantic web search engines / T. Penin, H. Wang, T. Tran, Y. Yu // Proc. of the 3rd Asian semantic web conf. on the semantic web. Berlin: Springer-Verlag, 2008. - P. 493-507.

107. Popov, В. KIM A Semantic Platform for Information Extraction and Retrieval / B. Popov, A. Kiryakov, D. Ognyanoff, D. Manov, A. Kirilov // Journal of NLP. - Cambridge University Press, 2004. - V. 10, № 4. - pp. 375-392.

108. Prud'hommeaux, E. SPARQL Query Language for RDF / E. Prud'hommeaux, A. Seaborne // W3C Working Draft, 2006. http://www.w3.org/TR/rdf-sparql-query (дата обращения 30-июля-2012).

109. Rada, R. Development and application of a metric on semantic nets / Rada R., Mili H., Bicknell E., M. Blettner. // IEEE Transactions on Systems, Man, and Cybernetics. 1989. -V. 19, № 1. - P. 17-30.

110. Ran, L. Knowledge organization and access in a conceptual information system / L. Rau // Information Processing and Management. 1987. - V. 23, №4.-pp. 269-283.

111. Resnik, P. Using information content to evaluate semantic similarity in a taxonomy / P. Resnik // Proc. 14th Int. Joint Conf. on Artificial Intelligence. -1995.-P. 448-453.

112. Resnik, P. Semantic similarity in a taxonomy: An information-based measures and its application to problems of ambiguity in natural language / P. Resnik // Journal of artificial intelligence. 1999. - pp. 95-130.

113. Richardson, R. Using WordNet in a knowledge-base approach to Information Retrieval / R. Richardson, A. Smeaton // BCS-IRSG Colloquium on Information Retrieval. 1995.

114. Robertson, S. The probabilistic relevance framework: BM25 and beyond / S. Robertson, H. Zaragoza // Foundation and Trends in information retrieval. 2009. - V.3, № 4. - pp. 333-389.

115. Rocha, C. A Hybrid Approach for Searching in the Semantic Web / C. Rocha, D. Schwabe, M. P. Aragâo // Proc. of the 13th Inter. WWW Conf. (WWW 2004). NY, USA, 2004. - pp. 374-383.

116. Rubinstein, H. Contextual correlates of synomymy / H. Rubinstein, J. Goodenough // Communications of the ACM. 1965. - V. 8, № 10. - P. 627-633.

117. Salton, G. The SMART Retrieval System Experiments in Automatic Document Processing / G. Salton // N.J., USA: Prentice-Hall, 1971.

118. Salton, G. Introduction to modern information retrieval / G. Salton, M. J. McGill. N.Y., USA: McGraw-Hill, 1986. - 448 p.

119. Shah, U. Information Retrieval on the Semantic Web / U. Shah, T. Finin, A. Joshi, R. Cost, J. Mayfield // 10th Inter. Conf. on Information and Knowledge Management. N.Y., USA: ACM Press, 2003. - pp. 461^68.

120. Seaborne, A. RDQL A Query Language for RDF / A. Seaborne // W3C Member Submission, 2004. http://www.w3.org/Submission/2004/ SUBM-RDQL-20040109 (дата обращения 30-июля-2012).

121. Srihari, K. Information Extraction Supported Question- Answering / K. Srihari, W. Li, X. Li // In Advances in Open- Domain Question Answering. N.Y., USA, 2004.-pp. 185-196.

122. Stojanovic, N. An Approach for the Ranking of Query Results in the Semantic Web / N. Stojanovic, R. Studer, L. Stojanovic // 2nd Inter. Semantic Web Conf. (ISWC2003). Berlin Heidelberg: Springer Verlag, 2003. - № 2870. - pp. 500-516.

123. Spârck, J. Synonymy and Semantic Classification : Ph.D. thesis / J. Sparck. University of Cambridge, UK. - 1964.

124. Sparck, J. Document Retrieval: Shallow Data, Deep Theories, Historical Reflections, Potential Directions / J. Sparck // 25 th European Conf. on IR Research. Pisa, Italy: Springer Verlag, 2003. - V. 2633, № 77. - pp. 1-11.

125. Spasic, I. Supervised learning of term similarities / I. Spasic, G. Ne-nadic, K. Manios, S. Ananiadou // Proc. 3rd Int. IDEAL Conf. LNCS. Berlin: Springer, 2002. - V. 2412. - P. 429-434.

126. Sussna, M. Word sense disambiguation for free-text indexing using a massive semantic network / M. Sussna // Proc. 2nd Int. Conf. IKM. N. Y.: ACM Press.- 1993.-P. 67-74.

127. Tsinaraki, C. Ontology-Based Semantic Indexing for MPEG-7 and TV-Anytime Audiovisual Content / C. Tsinaraki, P. Polydoros, F. Kazasis // Multimedia Tools and Applications. 2005. - V. 26. pp. 299-325.

128. Tversky, A. Features of similarity / A. Tversky // Psychological rev. -1977.-V. 84.-P. 325-352.

129. Ukkonen E. Approximate string matching with q-grams and maximal matches // Theoretical computer sience. 1992. - V. 92, № 1. - pp. 191-211.

130. Van, R. Information Retrieval / R. Van. London: ButterworthHeinemann, 1979. - 224 p.

131. Vallet, D. An ontology-based information retrieval model / D. Vallet, M. Fernandez, P. Castells // In Proc. of 2nd European semantic web conf. Berlin: Springer, 2005. - pp. 455-470.

132. Vet, P. E. The Plinius ontology of ceramic materials / P. E. Vet, P. H. Speel, N. J. I. Mars // Poc. Of ECAI94's workshop on comparison of impl. ontologies. Amsterdam: Springer-Verlag, 1994.-pp. 187-205.

133. Vorhees, E. Query expansion using lexical semantic relations / E. Vorthhees //17 Annual international ACM SIGIR Conf. on Research and Development in information Retrieval. Dublin, Ireland: Springer-Verlag, 1994. - pp. 61-67.

134. Yahoo. Project Search Monkey // Доступ осуществлен 16.08.2012 по адресу http://developer.yahoo.com/searchmonkey/siteowner.html/.

135. Yang, Y. Words or concepts: The features of indexing units and their optimal use in information retrieval / Y. Yang // 17th Annual Symposium on Computer Applications in Medical Care. Washington, USA, 1993. - pp. 685-689.

136. Yao, Y. Measuring retrieval effectiveness based on user preference of documents / Y. Yao // Journal of the American society for information sience. -1995.-V. 46.-pp. 133-145.

137. Zhang, L. An enhanced model for searching in semantic portals / L. Zhang, Y. Yu, J. Zhou, C. Lin, Y. Yang // Proc. of the 14th Inter. WWW Conf. -Chiba, Japan, 2005. pp. 453^162.

138. Zhu, H. An approach for semantic search by matching RDF graphs / H. Zhu, J. Zhong, J. Li, Y. Yu // Proc. LAIRS conf. 2002. - P. 450-454.

139. Wikipedia. Company Powerset // Доступ осуществлен 16.08.2012 по адресу http://en.wikipedia.org/wiki/Powerset(company)/.

140. Wikipedia. Virtuoso universal server // Доступ осуществлен 16.08.2012 по адресу http://en.wikipedia.org/wiki/VirtuosoUniversalServer/.

141. Wilks, Y. A. A Retrospective View of Synonymy and Semantic Classification / Y. A. Wilks, J. I. Tait // In Charting a New Course: NLP and IR. -Springer Netherlands, 2005. pp. 1-11.

142. Weaver, W. Translation / W. Weaver // In machine translation of languages: Fourteen Essays. 1955. Cambridge: Technology press of MIT. - pp. 186-197.

143. Wong, S. Generalized vector space model in information retrieval / S. Wong, W. Ziarko, P. Wong // In Proc. 8th ACM SIGIR Conf. on research and development in information retrieval. NY, USA, 1985. - pp. 18-25.

144. Wu, Z. Verbs semantics and lexical selection / Z. Wu, M. Palmer // Proc. 32nd ann. meeting ACL. NJ, USA. - 1994. - P. 133-138.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.