Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Аюшеева, Наталья Николаевна

  • Аюшеева, Наталья Николаевна
  • кандидат технических науккандидат технических наук
  • 2004, Улан-Удэ
  • Специальность ВАК РФ05.13.11
  • Количество страниц 228
Аюшеева, Наталья Николаевна. Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Улан-Удэ. 2004. 228 с.

Оглавление диссертации кандидат технических наук Аюшеева, Наталья Николаевна

Введение.

1. Введение в проблему и анализ моделей поисковых систем.

1.1. Описание проблемной ситуации.

1.2. Обзор информационно-поисковых систем.

1.3. Обзор методов индексирования.

1.4. Обзор методов поиска и ранжирования документов.

1.5. Обзор методов и средств создания метакаталогов.

1.5.1. Обзор методов создания метакаталогов.

1.5.2. Краткий обзор средств.

1.5.3. Средства и технологии хранения.

1.6. Выводы по главе и содержательная постановка задачи.

2. Модель метакаталога информационных образовательных ресурсов

2.1. Схема спецификаций метаданных.

2.1.1. Классификация ИОР.

2.1.2. Обзор существующих спецификаций метаданных.

2.1.3. Метаданные ИОР.

2.2. Логическая модель данных.

2.2.1. Именование объектов логической модели.

2.2.2. Сущности.

2.2.3. Атрибуты.

2.2.4. Связи (отношения).

2.2.5. Нормализация.

2.2.6. Методы обеспечения целостности данных.

2.3. Традиционные методы поиска.

2.3.1. Атрибутный поиск.

2.3.2. Контекстный поиск по ключевым словам.

2.3.3. Атрибутно-контекстный поиск.

2.6. Выводы по главе.

3. Модель поиска.

3.1. Структурная схема модели поиска.

3.2. Построение поискового образа документа.

3.2.1. Препроцессорная обработка полнотекстового документа

3.2.2. Индексирование полнотекстового документа.

3.3. Определение релевантности и ранжирование коллекции документов.

3.3.1. Распознавание запроса и построение поискового образа запроса.

3.3.2. Формирование множества релевантных документов.

3.4.3. Кластеризация множества релевантных документов.

3.4. Выводы по главе.

4. Описание программного обеспечения.

4.1. Программа Metacatalog по работе с метакаталогом. 4.2. Программа IndexingPro.

4.2.1. Краткое описание алгоритма.

4.2.2. Экспериментальная проверка метода построения поискового образа документа в виде его семантической сети.

4.3. Программа KohonenNet.

4.4. Выводы по главе.:.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке»

Актуальность темы диссертационного исследования. Исследования в области информационного поиска ведутся уже более тридцати лет. За это время из узкоспециализированной тематики он превратился в одну из ключевых областей информатики. Основоположником теории информационного поиска по праву считается Дж. Солтон [80, 151, 152, 153]. Основные концепции этой теории, изложенные им в 70-х гг. XX века, считаются канонами информационного поиска и нашли применение в большинстве существующих поисковых систем.

При накопленных теоретических знаниях и практическом опыте необходимость исследований в области информационного поиска постоянно сохраняется вследствие происходящих изменений в экономической и социальной жизни страны. В настоящий момент система образования переживает процесс модернизации, который частично осуществляется посредством исполнения утвержденных Федеральных Целевых Программ (ФЦП). Одной из таких программ, связанной с внедрением информационных и телекоммуникационных технологий в образовательную деятельность, является ФЦП «Развитие единой образовательной информационной среды (на 2001-2005гг.)». В рамках данной ФЦП выделены следующие основные направления информатизации образования: электронные образовательные ресурсы, подготовка кадров для информационного общества, компьютеризация и коммуникационное обеспечение образования, поддержка региональных программ информатизации, развитие информационных систем управления образованием. Для реализации мероприятий программы созданы и создаются федеральные и региональные ресурсные центры. По направлению информатизации «Электронные образовательные ресурсы» региональными ресурсными центрами выполняются работы по разработке информационных образовательных ресурсов (ИОР), системы образовательных порталов, электронных библиотек (депозитариев) и т.п.

Необходимость разработки электронных библиотек обуславливается тем, что с появлением и активным использованием глобальной сети Интернет задачи информационного поиска несколько видоизменились: стало необходимым учитывать природу сети Интернет, которой свойственны огромный объем доступной информации, её разнородность, высокий процент временной информации, отсутствие контроля за качеством информации. Все это явилось предпосылками того, что процессы перевода традиционных источников информации в форму ресурсов Сети получили новое «звучание» в плане организации учета (хотя бы частичной), которая присуща традиционным библиотекам.

Актуальность исследований в области информационного поиска также обусловлена тем, что при поиске информации в сети Интернет мощность множества документов, составляющих отклик на запрос, как правило, получается очень большой за счет огромного числа «шумовых» документов, попавших в отклик. Это обуславливает необходимость повышения качества методов информационного поиска. Для сравнения эффективности различных методов необходимо определить, какие критерии будут использованы для оценки эффективности. Конечно, вычислительная производительность метода является одним из критериев оценки эффективности, но гораздо более важными показателями обычно являются критерии, характеризующие качество результатов поиска. К таким показателям зачастую относят два параметра:

1) точность (precision) - доля релевантного материала в ответе поисковой системы;

2) полнота (recall) - доля найденных релевантных документов в общем числе релевантных документов коллекции.

Очевидно, что хорошая поисковая система должна иметь как можно большие полноту и точность, желательно - 100%, т.е. находить все нужные документы и ни одного лишнего. Однако стопроцентное качество поиска невозможно, поэтому необходимо разработать методы, позволяющие повысить данные характеристики. Повышение качества поиска напрямую зависит от полноты элементов спецификации метаописания информационных образовательных ресурсов и степени интеллектуализации методов поиска.

Вышеизложенное позволяет сделать заключение о необходимости проведения исследований по вопросам повышения качества информационного поиска, которые важны для создания метакаталога и поисковой системы депозитария информационных образовательных ресурсов.

Целью исследования является исследование и разработка методов поиска информационных ресурсов, учитывающих их образовательную направленность, а также позволяющих разработать эффективную поисковую систему депозитария.

Для достижения поставленной цели исследования проводились по следующим основным направлениям:

- выбор базовой схемы метаописания ИОР и разработка модели данных метакаталога информационных образовательных ресурсов;

- исследование и разработка метода индексирования полнотекстового документа, содержащего научные, учебные и учебно-методические материалы;

- исследование и разработка метода информационного поиска на основе семантического анализа полнотекстового документа.

Объектом исследования является информационный образовательный ресурс в виде полнотекстового документа.

Предмет исследования составляют методы и алгоритмы информационного поиска.

Методологической и теоретической основой исследования послужили математический аппарат теории множеств, теории графов, теории искусственных нейронных сетей, искусственного интеллекта. Достоверность научных выводов и практических рекомендаций основывается на р теоретических и методологических положениях, сформулированных в исследованиях российских и зарубежных ученых, таких как Д.Г.Лахути,

И.И.Попов, В.Н.Решетников, А.И.Черный, Э.Э.Гасанов, Ю.А.Шрейдер, И.С. Некрестьянов, И.Е. Кураленок, В.Ю. Добрынин, А.Г. Дубинский, А.Е. Ермаков, М.Р. Когаловский, A.B. Сокирко, G. Saltón, К. Sparck-Jones, S.E. Robertson, G.K.Zipf, A. Singhal, М. Mitra, S. Lawrence, P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, K. Tajima, C. Van Rijsbergen, L. Gravano, J. Kleinberg и др.

Наиболее существенные результаты и научная новизна диссертационной работы состоят в следующих результатах, содержащих, по мнению автора, элементы научной новизны:

1. Разработан метод индексирования полнотекстового документа, основанный на оригинальном способе построения семантической сети, позволяющей учитывать семантику документа при формировании его поискового образа.

2. Разработан метод информационного поиска, основанный на сопоставлении графов запроса и поискового образа документа для выявления степени релевантности документа, и позволяющий уменьшить мощность множества релевантных документов, образующих отклик на затребываемую в запросе информацию, за счет применения кластеризации этого множества.

3. Получена модель метакаталога, спецификация которого учитывает образовательную направленность информационных ресурсов, также создана модель поисковой системы, позволяющая повысить точность результатов поиска.

Практическая значимость исследования состоит в том, что полученные результаты могут быть применены при разработке двух компонентов регионального депозитария информационных образовательных ресурсов: метакаталога и поисковой системы, удовлетворяющие требованиям, предъявляемым к их разработке, среди которых важнейшим является получение отклика, включающего документы действительно релевантные запросу пользователя.

Апробация результатов исследования. Результаты исследования выносились на обсуждение международной научной конференции

Информация-Коммуникация-Общество» (Санкт-Петербург, 11-12 ноября

2003 г.), международной научной конференции «VI Энгельмейеровские чтения» (Москва, 2003 г.), Всероссийской научно-практической конференции «Российская школа и Интернет» (Санкт-Петербург, 2002 г.), Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2002-2004 гг.), Третьей Всероссийской научно-практической конференции-выставке «Единая образовательная информационная среда: проблемы и пути развития» (Омск,

2004 г.), Всероссийской научно-практической конференции «Проблемы качества, безопасности и диагностики в условиях информационного общества» (Сочи, 2004 г.). Материалы диссертации были использованы при подготовке учебного курса «Основы интернет-технологий» и нашли применение в учебном процессе ВСГТУ.

Результаты работы в виде разработанного программного и лингвистического обеспечения используются в Межотраслевом НИИ «Интеграл». Некоторые результаты исследования были использованы при выполнении госбюджетной НИР «Теоретические и прикладные вопросы разработки интегрированных интеллектуальных информационных систем. Этап: Основные аспекты методологии построения интеллектуальных информационно-поисковых систем» (ГР№ 01.200.205060; Инв.№ 02.200305099) [69], проекта «Разработка республиканской электронной библиотеки публикаций научных и образовательных учреждений на базе портала Регионального ресурсного центра информатизации образования Республики Бурятия» (ФЦП «Развитие информационных ресурсов и технологий», подпрограмма «Оптимизация ресурсного обеспечения системы образования. Индустрия образования»), а также в рамках НИР «Исследование и разработка методов и алгоритмов полнотекстового поиска информации в системе образовательных порталов», выполненной в 2002 году по гранту Правительства Республики Бурятия для молодых ученых.

Публикации. По теме диссертации опубликовано 10 печатных работ, объемом 5,75 п.л.

Структура и объем диссертации. Работа состоит из введения, четырех

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Аюшеева, Наталья Николаевна

5. Выводы по работе

Для достижения цели диссертационной работы были проведены исследования по трем основным направлениям:

- выбор базовой схемы метаописания ИОР и разработка модели данных метакаталога информационных образовательных ресурсов;

- исследование и разработка метода индексирования полнотекстового документа, содержащего научные, учебные и учебно-методические материалы;

- исследование и разработка метода информационного поиска на основе семантического анализа полнотекстового документа.

В рамках первого направления на основе международных стандартов по спецификациям метаописания информационных ресурсов и предложенной классификации информационных образовательных ресурсов разработана схема метаданных, которая легла в основу модели данных метакаталога ИОР. Данная модель построена по методологии Information Engineering (IE), учитывает образовательную направленность информационных ресурсов, обладает свойством целостности и позволяет однозначно определять ИОР.

По направлению «Исследование и разработка метода индексирования полнотекстового документа» на основе результатов анализа существующих методов индексирования определена структура поискового образа документа и разработан оригинальный способ построения семантической сети, позволяющий учитывать семантику документа при формировании его поискового образа.

По третьему направлению на основе результатов анализа существующих методов и моделей поиска разработан метод информационного поиска, основанный на сопоставлении графов запроса и поискового образа документа для выявления степени релевантности документа, и позволяющий уменьшить мощность отклика на запрос за счет максимального уменьшения числа «шумовых» документов .

Заключение

В диссертационной работе предложены модели метакаталога и поисковой системы, в процессе создания которых достигнута цель исследования и получены следующие результаты:

1. Предложена спецификация метаописания информационных образовательных ресурсов, базирующаяся на международном стандарте Learning Object Metadata и на выполненной в работе классификации информационных образовательных ресурсов. Элементы данной спецификации достаточно полно отражают образовательный характер описываемого ресурса.

2. Предложена двухкомпонентная структура поискового образа документа, основу которого составляет взвешенная семантическая сеть полнотекстового документа, адекватно отражающая семантику этого документа.

3. Разработана двухкомпонентная модель поиска. Первый компонент осуществляет построение семантической сети документа, второй — построение отклика на запрос пользователя. Это позволяет отделить поиск полнотекстовых документов от поиска других видов ИОР.

4. Разработан подход к индексированию документа, основанный на оригинальном способе формирования семантической сети документа.

5. Предложены методы построения и ранжирования отклика поисковой системы на запрос пользователя, которые основаны на анализе семантических сетей запроса и документов коллекции депозитария. Применение кластеризации релевантных документов позволяет получить семантически близкие документы в одном кластере. Содержимое кластера с наибольшим средним значением интегрального показателя степени релевантности образует отклик поисковой системы, обладающий высоким показателем точности.

6. Проведена экспериментальная проверка разработанных моделей и методов, результаты которой подтверждают основные положения работы.

7. Полученные результаты могут быть применены при разработке поисковой системы регионального депозитария информационных образовательных ресурсов.

Список литературы диссертационного исследования кандидат технических наук Аюшеева, Наталья Николаевна, 2004 год

1. Автоматизация индексирования и реферирования документов // Итоги науки и техники. ВИНИТИ. Сер. Информатика. 1983. - Т. 7. - 246 с.

2. Аграновский A.B., Арутюнян P.A., Хади P.A. Современные аспекты проблемы поиска в текстовых базах данных // Телекоммуникации. 2003. — №3. - С. 25-30.

3. Амамра Рушди Ахмад. Разработка методов и алгоритмов тематически ориентированного распределенного поиска информации в глобальных сетях типа Интернет: Дис. . канд. техн. наук. — СПб., 2002. 209 с.

4. Инфосфера: информационные структуры, системы и процессы в науке и обществе / Арский Ю.М., Гиляревский P.C., Туров И.С., Черный А.И. -М.: ВИНИТИ, 1996. 489 с.

5. Аюшеева H.H. Схема метаданных метакаталога информационных образовательных ресурсов // Проблемы качества, безопасности и диагностики в условиях информационного общества: Тез. Всерос. науч.-практ. конф. Сочи, 2004. - С. 187.

6. Аюшеева H.H. Метод индексирования полнотекстовых документов

7. Теоретические и прикладные вопросы современных информационных технологий: Матер, четвертой Всерос. науч.-технич. конф. Улан-Удэ, 2003. - С.174-176.

8. Аюшеева H.H. О результатах исследования методов индексирования

9. Информация — Коммуникация Общество (ИКО-2003): Тез. докл. и выступл. Междунар. науч. конфер. - СПб., 2003. - С. 34.

10. Аюшеева H.H. Поиск информации в Internet // Основы интернет-технологий: Учеб. пособ. / H.H. Аюшеева, Н.Ц. Бильгаева, В.В. Найханов и др. Улан-Удэ: Изд-во ВСГТУ, 2002. - С. 26-63.

11. Башмаков А.И., Старых В.А. Систематизация информационных ресурсов для сферы образования: классификация и метаданные. М.: Мир, 2003.212 с.

12. Беловольская JI.A. Синтаксис словосочетания и простого предложения. -<http://www.philologv.ru/linguistics2/belovolskaya-01 .htm>

13. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1953. - 288 с.

14. Белоногов Г. Г., Кузнецов Б. А., Новоселов А. П. Автоматизированная обработка научно-технической информации. Лингвистические аспекты

15. Итоги науки и техники. ВИНИТИ. Сер. Информатика. 1984. - Т.8. -316с.

16. Большой энциклопедический словарь. Языкознание / Гл. ред. В. Н. Ярцева / 2-е изд. М.: БРЭ, 1998. - 618 с.

17. Бондарев Л.К. Система поиска данных в MetaChem Data System // Научно-техническая информация. Сер.2. Информационные процессы и системы. -2003.-№5.-С. 22-28.

18. Борисов С.Ю. Преобразование электронных документов на основе языка XML // Известия вузов. Приборостроение 2003. — Т.46. - №2. - С. 48-50.

19. Браславский П.И. Методы повышения эффективности поиска научной информации (на материале Internet): Дис. . канд. техн. наук. -Екатеринбург, 2000. 159 с.

20. Брик A.B. Исследование и разработка вероятностных методов синтаксического анализа текста на естественном языке: Автореф. дис. . канд. техн. наук. — М., 2002. 16 с.

21. Волков С. С. Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы: Дис. . канд. техн. наук. Краснодар, 2002. - 180 с.

22. Гасанов Э.Э. Оптимальное решение базовых задач хранения и поиска в информационно-графовой модели данных: Дис. . д-ра физ.-матем. наук. -М., 1999.-368 с.

23. Гасанов Э.Э., Кудрявцев В.Б. Теория хранения и поиска информации. -М.: Физматлит, 2002. 288 с.

24. Гацко А.Ю. Динамическое группирование результатов поиска информации в документных архивах // Известия вузов. Приборостроение.- 2003. Т.46. - №2. - С. 42-45.

25. Гацко А.Ю. Концепция индексирования по ключевым словам. -<http://www.bookcase.ru/pl6/1609.html>

26. Издания. Основные виды. Термины и определения: ГОСТ 7.60-2003. М.: Изд-во стандартов, 2003. - 42 с. (Система стандартов по информ., библ. и изд. делу)

27. Электронные издания. Основные виды и выходные сведения: ГОСТ 7.832001. М.: Изд-во стандартов, 2002. - 16 с. (Система стандартов по информ., библ. и изд. делу)

28. Дмитриев А.К. Построение информационно-поисковых систем по критерию максимума полезности получаемой информации // Авиакосмическое приборостроение. 2003. - №6. - С. 46-51.

29. Добрынин В.Ю. Методические указания к курсу «Теория информационно-логических систем. Информационный поиск».- <http://ir.apmath.spbu.ru>. 43 с.

30. Добрынин В.Ю. Новые тенденции в информационном поиске.- <http://ir.apmath.spbu.ru>

31. Добрынин В.Ю., Некрестьянов И.С. Задача выбора тематических коллекций, релевантных запросу // Интернет и современное сообщество: Тр. Всерос. науч.-метод. конф. СПб, 1998. - С. 45-52.

32. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. -№4. - С. 77-83.

33. Дубинский А.Г. Проблема автоматизации поиска информации в глобальной сети // Проблемы автоматизации информационных технологий. Днепропетровск, 1999. - С. 40-48.

34. Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии: Тр. Междунар. сем. М., 2002. - Т.2. - С. 180-185.

35. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. -2000.-N5.-С. 23-28.

36. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. - N 12.35

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.