Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Нгуен Мань Хунг

  • Нгуен Мань Хунг
  • кандидат физико-математических науккандидат физико-математических наук
  • 2004, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 97
Нгуен Мань Хунг. Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2004. 97 с.

Оглавление диссертации кандидат физико-математических наук Нгуен Мань Хунг

1. Обзор.

1.1. Тезаурусы в описании информации.

1.2. Стандарты представления тезауруса.

1.2.1. Стандарт ISO 2788-1986 и Стандарт ISO 5964-1985.

1.2.2. Стандарт ANSI/NISO Z39.19-1993.

1.2.3. Стандарт ГОСТ 7.25-2001 и Стандарт ГОСТ 7.24-90.

1.3. Некоторые приложения тезаурусов в информационных системах.

1.3.1. RCO Thésaurus Search - библиотека работы с поисковым тезаурусом [5].

1.3.2. Расширение запросов с помощью тезауруса [6].

1.3.3. Некоторые приложения на основе Общественно-политического тезауруса [7].

1.4. Подходы к описаниям тезауруса.

1.4.1. Модель тезауруса на XML Schéma.

1.4.2. Формат представления многоязычного тезауруса в RDFS [19], разработанный в рамках проекта LIMBER.

1.4.3. Схема данных тезауруса ILRT (Institute for Learning and Research Technology) [11].

1.4.4. Модель тезауруса DRC (Dynamics Research Corporation^ 12].

2. Модель тезауруса.

2.1. Особенности применения тезаурусов в информационных системах

2.2. Требования к реализации тезауруса в информационной системе.

2.3. Платформа реализации тезауруса, требования Semantic Web.

2.4. Resource Description Framework (RDF) и RDF Schéma как основной формат метаданных в Semantic Web.

2.5. RDF схема тезауруса.

3. Реализация тезауруса в ИСИР РАН.

3.1. Требования к интерфейсам работы с тезаурусом:.

3.2. Модель вариантов использования.

3.3. Диаграмма перемещения по страницам системы.

3.4. Общая схема работы системы.

3.5. Импорт, Экспорта данных тезаурусов.

3.6. Описание схемы данных подсистемы — реализация тезаурусов.

3.7. Краткое описание пользовательских интерфейсов.

4. Интегрированная система информационных ресурсов Министерства Образования и Подготовки (ВМОиП).

4.1. Описание системы ВМОиП.

4.2. Требования к системе ВМОиП.

4.3. Схема данных системы ВМОиП.

4.4. Реализация интегрированной системы информационных ресурсов ВМОиП с использованием технологий ИСИР.

5. Выводы.

Постановка задачи

В настоящее время глобальная сеть Internet является важнейшим 9 источником информации для всех областей знаний, однако поиск информации при помощи Internet зачастую оказывается малоэффективным. Это происходит потому, что изначально World Wide Web (Web) технологии исключительно ориентировались на поддержку человеческой деятельности по поиску и навигации в информационном пространстве Web-pecypcoB. Благодаря принципам, легшим в основу Web, он развивается высокими темпами,' развивается как экстенсивно, так и интенсивно. Информация, находящаяся в Web слабо упорядочена, постоянно изменяется, причем как сама информация, так и ее положение. Использование всего богатства имеющихся источников информации в информационных системах сопряжено с проблемами эффективного обнаружения требуемой информации. Имеющиеся системы не позволяют осуществить эффективный поиск требуемой информации.

Это связано и с возрастанием объема информации, и со способами выбора того, что следует индексировать, как обеспечить равноправное индексирование всего пространства информации, с проблемами определения, • в контексте каких поисковых запросов следует выдавать ту или иную информацию. Имеется много всевозможных способов поиска информации, ее извлечения и доставки, тем не менее, отыскать нужную информацию в информационных системах и Интернет становится все труднее и труднее.

Для решения этих проблем необходимо создавать и использовать всевозможные средства, классифицирующие, индексирующие информацию, облегчающие поиск необходимых ресурсов, делающие поиск значительно более управляемым, предметным и содержательным. В настоящее время следующие направления исследования очень актуальны:

-Применение тезаурусов в информационных системах для классификации, индексирования, поиска информационных ресурсов, аннотирования текстов, и пр.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка модели и реализация тезаурусов в Интегрированной системе информационных ресурсов»

Из вышесказанного следует, что значительный интерес представляет разработка и реализация информационной системы, реализация которой предусматривает: » -Использование метаданных для описания ресурсов.

-Использование тезаурусов для классификации, индексирования ресурсов, а также для их эффективного поиска.

-Применение открытых стандартов взаимодействия систем, поиска, обмена и представления данных.

Целью диссертационной работы является исследование подходов к применению тезаурусов в информационных системах (ИС). Эта цель достигается посредством решения следующих задач:

1) Изучение структуры тезауруса и основных стандартов его описания и представления (ISO, ГОСТ, ANSI).

2) Разработка общей универсальной схемы представления тезаурусов в информационно-поисковых системах, позволяющей осуществлять эффективное использование тезауруса при поиске, классификации и навигации в пространстве ресурсов информационной системы.

3) Реализовать прикладную логику и пользовательские интерфейсы работы с тезаурусами для информационного портала ИСИР на основе универсальной схемы представления тезаурусов.

4) Реализация портала - Интегрированная Система Информационных Ресурсов Вьетнамского Министерства Образования и Подготовки (ВМОиП) с использованием технологий ИСИР портала. Система должна строиться на основе объектной схемы данных, отображаемой в конкретные базы данных разных типов. Такой подход позволяет легко расширять систему и интегрировать свои данные с данными других систем. Система должна представлять разные права доступа к ресурсам для разных пользователей. Система должна поддерживать много языков (как для интерфейсов и так для хранимых ресурсов), предоставлять удобные интерфейсы для поиска, просмотра, редактирования, пакетной выгрузки и загрузки ресурсов.

Краткое содержание работы

Работа состоит из четырех глав. Первая глава содержит обзор некоторых стандартов для представления тезаурусов, возможных применений тезаурусов в ИС и различных подходов к описанию схемы данных тезаурусов на основе объектной модели, а также анализ этих подходов. Вторая глава посвящена описанию общей универсальной схемы представления тезаурусов. На основе анализа, проведенного в первой главе, создана схема, пригодная для представления любого тезауруса (в том числе и многоязычного). В третьей главе описывается реализация тезаурусов в информационном портале ИСИР, осуществленная в соответствии с вышеописанной схемой. Реализация позволяет через Web-интерфейсы просматривать, создавать, редактировать, загружать, выгружать тезаурусы и I» их понятия, искать понятия по значениям их атрибутов. Можно осуществлять навигацию в пространстве тезаурусов по связям, просматривая сведения о них, загружая их содержание. В четвертой главе описана реализация системы

ВМОиП, использующая, в частности, описанную выше реализацию тезаурусов. Система позволяет через Web-интерфейс создавать новые ресурсы, редактировать их свойства, искать ресурсы по значениям их атрибутов. Можно осуществлять навигацию в пространстве ресурсов, просматривая сведения о них, а также выгружать, загружать данные в систему из открытых форматов. Тезаурусы в системе ВМОиП используются для классификации ресурсов, для построения запросов и расширения запросов. Система реализована на платформе Java, использует RDBMS MS SQL Server и Tomcat Web-сервер.

1. Обзор

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Нгуен Мань Хунг

Основные результаты, полученные в диссертационной работе, состоят в следующем:

1 .Проведенный анализ разных подходов [8, 9, 11, 12] показал, что они имеют некоторые частные недостатки и не обладают высокой степенью универсальности.

2.С учетом проведенного анализа и на основе некоторых стандартов [ISO, ANSI, ГОСТ] была создана общая универсальная схема для представления тезаурусов в информационно-поисковых системах, пригодная для представления любого тезауруса (в том числе и многоязычного).

3.На основе предложенной схемы реализована система администрирования тезаурусов, пользовательские web-интерфейсы для просмотра и навигации, а также для редактирования, загрузки и выгрузки тезаурусов. В системе реализовано два способа работы с тезаурусом: Тезаурус встроен в информационную систему и Тезаурус является хранимым ресурсом информационной системы. Реализация позволяет также осуществлять сопоставление рубрик разных классификаторов, описывающих одну и ту же предметную область. Такое сопоставление полезно, например, для осуществления автоматической классификации ресурсов.

4.С использованием вышеописанной реализации тезаурусов и технологий ИСИР Портал реализована интегрированная информационная система ВМОиП, позволяющая объединить информационные ресурсы ВМОиП в единое информационное пространство. Тезаурусы в этой системе используются для классификации ресурсов, для построения запросов и расширения запросов.

Степень новизны результатов состоит в том, что на основе анализа разных подходов к представлению тезаурусов, предложена общая универсальная схема представления тезаурусов в информационно-поисковых системах, пригодная для представления любого тезауруса. Предложены и реализованы механизмы работы с тезаурусами в информационных системах.

Предложенная общая универсальная схема и ее реализация позволяют существенно увеличить производительность труда при создании и поддержке цифровых библиотек и Web-приложений. Результаты диссертации могут быть использованы при разработке и реализации цифровых библиотек и Web-приложений.

По теме диссертации опубликовано 4 печатные работы, а также одна публикация в электронном издании.

Список литературы диссертационного исследования кандидат физико-математических наук Нгуен Мань Хунг, 2004 год

1. ГОСТ 7.25-2001 Тезаурус информационно-поисковый одноязычный, ИГТК Издательство стандартов 2001.

2. ГОСТ 7.24-90 Тезаурус информационно-поисковый многоязычный, Москва 1990

3. IS02788 Guidelines for establishment and development of monolingual thesauri, 2 nd ed., Geneva: ISO 1986.

4. IS05964 -Guidelines for establishment and development of multilingual thesauri, 1 st ed., Geneva: ISO 1985.

5. RCO Технологии анализа и поиска тестовой информации http://www.rco.ru: http://www.rco.ru/product.asp7ob по=245

6. Построения запросов к машине поиска Internet с помощью тезауруса.http://rcdl2001 .krc.karelia.ru:8001 /papers/papers/braslavsky/Braslavsky pap er.rtf;http://rcdl2001 .krc.karelia.ru/papers/papers/braslavskv/Braslavsky paper.rtf

7. Университетская информационная система (УИС) РОССИЯ http://www.cir.ru/docs/ips/techno/index.htm

8. Тезаурус для расширения запросов к машинам поиска Интернета: Структура и Функции.http://www.dialog-21.ru/Archive/2003/Braslavskii.pdf

9. LIMBER (Language Independent Metadata Browsing of European Resources) project: http://www.limber.rl.ac.uk/

10. A Thesaurus Interchange Format in RDF http://www.limber.rl.ac.uk/External/SW conf thes paper.htm

11. RDF Thesaurus Specification httn:/Avww.iIrt.bris.ac.uk/discovery/2001/01/rdf-thes/

12. Hall, M. (2001) CALL Thesaurus Ontology in DAML. http://orlando.drc.com/daml/ontology/Thesaurus/CALL/

13. Mathematical Subject Classification (MSC) http ://w ww. ams .org/m se

14. Physics and Astronomy Classification Scheme (PACS) http://www.aip.org/pacs/

15. Dewey Decimal Classification (DDC) http://www.oclc.org/dewey/

16. Thesaurii, Techquila http://www.techquila.com/tmsinia3.html

17. Steve Pepper, The TAO of Topic Maps http://www.ontopia.net/topicmaps/materials/tao.html

18. XML Schema http://www.w3.org/XML/Schema

19. RDF Vocabulary Description Language 1.0: RDF Schema http://www.w3 .org/TR/rdf-schema/

20. DARPA Agent Markup Language (DAML)http://www.daml.org/

21. DAML+OIL (March 2001) Reference Description. http://www.daml.org/2001/03/daml+oil-index.html

22. Semantic Web Activity. http://www.w3 .org/2001 /sw

23. Resource Description Framework (RDF) Model and Syntax, W3C Recommendation, 22 February 1999. http://www.w3.org/TR/1999/REC-rdf-svntax-19990222

24. W3C RDF Core WG Internal Working Draft. http://www.w3.org/2001/sw/RDFCore/ntriples

25. Dublin Core Activity. http://dublincore.org

26. Ontology Inference Layer. http ://www. ontokno wl ed ge. com/o i 1

27. OWL Web Ontology Language 1.0 Reference. W3C Working Draft. http://www.w3 .org/TR/owl-ref/

28. Tim Berners-Lee. What the Semantic Web can represent., 1998 http://www.w3.org/DesignIssues/RDFnot.html

29. Подходы к описанию и использованию тезаурусов в информационных системах. Нгуен Мань Хунг, Аджиев Алимf. Сапарович Труды 5ой Всероссийской научной конференции

30. Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL2003, Санк-Пертербург, Россия, 2003.

31. Тезаурусы в информационных системах. Аджиев Алим Сапарович, Нгуен Мань Хунг, Сборник статьей «Интегрированная система информационных ресурсов: Архитектура и Реализация», ВЦ РАН, Москва 2004 (принята к печати).

32. Реализация тезаурусов в Информационной Системе Интегрированных Ресурсов (ИСИР). Нгуен Мань Хунг, Программирования, № 4 (принята к печати), Москва 2004.

33. Formbuilder средство автоматизации Web-редактирования ресурсов. Нестеренко А.К., Сборник статьей «Интегрированная система информационных ресурсов: Архитектура и Реализация», ВЦ РАН, Москва 2004.

34. XML-публикация в ИСИР. Бездушный А.А., Сборник статьей «Интегрированная система информационных ресурсов: Архитектура и Реализация», ВЦ РАН, Москва 2004.

35. Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В.А., Интегрированная система информационных ресурсов РАН и технология разработки цифровых библиотек. Программирование V 26, N4, 2000, рр. 177-185.

36. Object Database Management Group. http://www.odmg.org

37. XSL Transformations (XSLT). W3C Recommendation. http://www.w3.org/TR/xslt

38. Каталог ресурсов «Кирилл и Мефодий» http://search.km.ru/url/index.asp

39. Информационная система ИСИР http://uis.isir.ras.ru

40. Thesaurus Format: Nusearch Standard Specification http://www.excavio.com/pdf/wp nusearch thesaurus spec.pdf

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.