Модели и алгоритмы специализированного поиска образовательных Интернет порталов для снижения загрузки телекоммуникационной сети тема диссертации и автореферата по ВАК РФ 05.13.13, кандидат технических наук Седова, Татьяна Львовна

  • Седова, Татьяна Львовна
  • кандидат технических науккандидат технических наук
  • 2008, Москва
  • Специальность ВАК РФ05.13.13
  • Количество страниц 135
Седова, Татьяна Львовна. Модели и алгоритмы специализированного поиска образовательных Интернет порталов для снижения загрузки телекоммуникационной сети: дис. кандидат технических наук: 05.13.13 - Телекоммуникационные системы и компьютерные сети. Москва. 2008. 135 с.

Оглавление диссертации кандидат технических наук Седова, Татьяна Львовна

ВВЕДЕНИЕ.

1. АНАЛИТИЧЕСКИЙ ОБЗОР.

1.1. Интернет порталы.

1.2. Общие сведения о поисковых системах.

1.2.1. Индексированные каталоги.

1.2.2. Тематические коллекции ссылок.

1.2.3. Поисковые машины.

1.2.4. Основы работы поисковых машин.

1.2.5. Построение индекса.

1.2.6. Поиск по индексу.

1.2.7. Метапоисковые системы.

1.2.8. Онлайновые энциклопедии и справочники.

Обзор существующих методов таксономии.

1.3.1. Содержательное описание алгоритмов.

1.3.1.1 Алгоритм FOREL.

1.3.1.2. Алгоритм FOREL-2.

1.3.1.3. Алгоритм SKAT.

1.3.2. Поиск в Х - пространстве.

1.3.2.1. Содержательное описание алгоритма KRAB.

1.3.2.2. Проверка качества таксономии алгоритмом KRAB.

Выводы.

2. МАТЕМАТИЧЕСКИЕ МОДЕЛИ РАСЧЕТА ХАРАКТЕРИСТИК ПРОЦЕДУР ПОИСКА НА ИНТЕРНЕТ ПОРТАЛАХ.

2.1. Описание системы.

2.2. Модель процедуры случайного поиска.

2.3. Модель процедуры поиска в заданном порядке.

2.4. Модель процедуры направленного поиска.

2.5. Сравнительный анализ результатов моделирования.

Выводы.

3. СРАВНИТЕЛЬНЫЙ АНАЛИЗ КАЧЕСТВА И ПОИСК В ИНТЕРНЕТЕ ОБРАЗОВАТЕЛЬНЫХ ПОРТАЛОВ.

3.1. Анализ требований к системе сравнительного анализа образовательных порталов в телекоммуникационных сетях.

3.2. Разработка критериев оценки образовательных порталов с помощью бальных оценок.

3.3. Естественные единицы измерения критериев.

3.4. Формальные постановки задачи.

3.4.1. Многокритериальная постановка задачи.

3.4.2. Однокритериальные постановки задачи ранжирования.

3.5. Описание алгоритма сравнительного анализа качества Интернет порталов.

Выводы.

4. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ПОИСКОВОЙ СИСТЕМЫ И ТИПОВАЯ МЕТОДИКА ВЫБОРА ОБРАЗОВАТЕЛЬНЫХ ПОРТАЛОВ.

4.1. Существующие технологии формирования динамических страниц в сети Интернет.

4.2. Дополнительные программные средства.

4.2.1. MySQL -решение для WEB.

4.2.2. Поддержка работы с транзакциями.

4.3. Типовая методика выбора образовательных порталов.

4.3.1. Определение оптимального упорядочения порталов.

4.4. Интерфейс и структура БД.

Выводы.

Рекомендованный список диссертаций по специальности «Телекоммуникационные системы и компьютерные сети», 05.13.13 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модели и алгоритмы специализированного поиска образовательных Интернет порталов для снижения загрузки телекоммуникационной сети»

С каждым годом объемы и разнообразие представляемой в Интернет информации постоянной увеличивается. В результате в Интернет сегодня размещены миллионы сайтов, причем наряду с современной актуальной информацией, имеется много устаревших ресурсов, немало мусора и недобросовестной рекламы. При этом мало кто озабочен тем, чтобы избежать дублирования информации или следовать стандартам, принятым на сайте соседа. Существует мнение, что в Интернет сети есть все, но найти там требуемые данные в обозримое время практически невозможно. Так что проблема поиска информации в Интернет является одной из самых актуальных.

При этом в современной Интернет среде одной из наиболее важных проблем является перегрузка телекоммуникационной системы (каналов связи). Во многом, перегрузка обусловлена нерациональной работой клиентов Интернет, что связано с неэффективными процедурами поиска требуемой информации, которые предусматривают последовательный слабо управляемый просмотр различных ресурсов (порталов, сайтов, страниц).

На сегодняшний день задачу поиска необходимой информации в Интернете решают специальные поисковые системы. Существует достаточно большое количество таких систем, осуществляющих поиск информации как во всем пространстве Интернет ресурсов, так и в его русскоязычной части. Каждая поисковая система реализует свой уникальный поисковый алгоритм, являющийся ноу-хау разработчиков. Современные поисковые системы позволяют производить лексический разбор искомого текста, производить поиск по нескольким словоформам, находить ошибки в запросах пользователей и предлагать варианты их исправления, задавать различные режимы поиска информации. Тем не менее, принципы работы всех поисковых систем практически идентичны: в основе работы каждой из них лежит индексированный каталог или база данных, в которой собрана информация об известных поисковой машине страницах, и где, собственно, происходит поиск.

Возможно, однако, хотя бы частично разгрузить телекоммуникационную среду путем сокращения числа просматриваемых Интернет ресурсов и упорядочения поиска за счет их предварительного анализа и ранжирования. Для этого целесообразно создавать специализированные поисковые системы и проводить поиск во множестве специализированных Интернет ресурсов, сформированных по заданным признакам, т.е. создавать тематические поисковые системы. В таких системах можно значительно повысить эффективность поиска, применяя специальные оптимизирующие алгоритмы классификации собираемых о ресурсах данных, позволяющие сократить число просматриваемых ресурсов, сделать поиск более целенаправленным.

Здесь в качестве системы специализированных Интернет ресурсов рассматривается распределенная система образовательных порталов. Система, к настоящему времени, насчитывает значительное количество реальных порталов действующих на территории России и хранящих специальную информацию, поиск которой обычными способами приводит к необходимости просматривать большое число посторонних Интернет ресурсов.

Однако, наряду с заметным сокращением числа обращений в Интернет при поиске, подготовительные процедуры для поиска в рассматриваемой системе требуют предварительного сбора и обработки значительных объемов информации, что загружает телекоммуникационную систему, поисковый сервер. Причем загрузка в значительной степени зависит от установленных критериев и алгоритмов оценки собираемой информации. Таким образом, в рамках заданной системы, необходимо организовать процедуры сбора необходимых данных с входящих в нее порталов, провести классификацию порталов по этим данным и предоставить пользователю системы возможность обращения непосредственно к наиболее ценному порталу.

Поскольку количество и объемы Интернет ресурсов постоянно возрастают, то повышение эффективности поиска требуемой информации будет актуальной задачей, как на сегодняшний день, так и на обозримую перспективу.

В связи с этим, тематика диссертационной работы, направленная на создание специализированной поисковой системы ориентированной на поиск в ограниченной среде образовательных порталов, актуальна и имеет важное практическое значение.

Целью работы является создание моделей и алгоритмов позволяющих:

• осуществлять поиск информации в сформированной системе образовательных порталов;

• минимизировать загрузку телекоммуникационной сети при просмотре пользователями предлагаемых источников информации;

• производить оценку каждого найденного пункта по заранее определенным критериям.

В качестве предмета поиска были выбраны образовательные ресурсы Интернет. Таким образом, основной идеей работы является разработка математического аппарата и создание на его основе программных средств, которые должны решать задачи поиска наиболее подходящего образовательного портала обеспечивающего минимальное число обращений к телекоммуникационной сети.

Для достижения поставленной цели в работе сформулированы и решены следующие задачи:

• проведен анализ современных поисковых систем, используемых в Интернет среде, выявлены их достоинства и недостатки;

• разработаны алгоритмы оценки близости показателей образовательных порталов к требуемым и их ранжирования;

• разработан комплекс математически моделей для вычисления близости показателей образовательных порталов к требуемым и оценки эффективности различных процедур поиска информации в системе образовательных порталов;

• разработано алгоритмическое и программное обеспечение для реализации разработанных методов и моделей при создании специализированной поисковой системы.

На защиту выносятся:

1. Классификация основных компонент образовательных порталов.

2. Математические модели и алгоритмы оценки близости показателей образовательных порталов к требуемым.

3. Математические модели для оценки загрузки телекоммуникационной сети и длительности сеанса поиска при различных процедурах поиска образовательных порталов.

4. Разработанная методика получения и обработки экспертных оценок близости основных показателей образовательных порталов к требуемым.

5. Средства программной поддержки автоматизированной системы ранжирования образовательных порталов.

Научная новизна полученных результатов заключается в следующем:

1. Разработаны базовые принципы оценки близости основных показателей образовательных порталов к требуемым.

2. Разработана методика получения и обработки экспертных оценок основных компонент образовательных порталов.

3. Разработаны математические модели оценки эффективности процедур поиска путем анализа требуемого количества запросов и длительности сеанса поиска.

4. Создан математический аппарат сравнительной оценки близости основных показателей образовательных порталов к требуемым. Практическая значимость работы заключается в разработке на базе полученных теоретических результатов, алгоритмического и программного обеспечения, предназначенного для оценки основных показателей образовательных порталов и их ускоренного поиска.

Достоверность и обоснованность результатов диссертации основаны на применении математических моделей, отражающих специфику исследуемых процессов, соответствии практических и теоретических результатов, опубликованным в печати данным, и подтверждается положительными данными о практическом применении в реальной системе образовательных порталов.

Методы исследований. При решении поставленных в диссертации задач применялись методы теории систем, теории множеств, теории вероятностей, теории очередей, математического программирования, а также методы создания баз данных и разработки приложений.

Апробация работы. Основные положения диссертации докладывались на семинарах ФГУ ГНИИ ИТТ «Информика», Международной конференции «Информационные технологии и системы: наука и практика» (Владикавказ, 2002), Международной научно-технической конференции «Информационные технологии и системы: новые информационные технологии в науке, образовании, экономике» (Владикавказ, 2003), Всероссийской научно-методической конференции «Телематика» (Санкт-Петербург,

2002,2003,2004,2005), Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий (Улан-Удэ, 2002.).

Публикации. Результаты диссертационной работы отражены в 9 опубликованных печатных работах.

Похожие диссертационные работы по специальности «Телекоммуникационные системы и компьютерные сети», 05.13.13 шифр ВАК

Заключение диссертации по теме «Телекоммуникационные системы и компьютерные сети», Седова, Татьяна Львовна

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ

РАБОТЫ

1. Проведен анализ существующих подходов к организации поиска информации в Интернет среде. Показано, что известные поисковые системы не всегда эффективны и их применение приводит к высокой загрузке телекоммуникационной системы из-за необходимости просматривать большое количество Интернет ресурсов. Для сокращения числа запросов при поиске информации и повышения эффективности и качества поиска предложено создавать специализированные поисковые системы, ориентированные на однотипную информацию, для поиска которой можно создавать более эффективные поисковые средства.

2. Проведен анализ наиболее распространенных алгоритмов поиска, случайный поиск, поиск в заданном порядке (по списку), направленный поиск, когда однозначно определен адрес искомых данных. Показано, что для сокращения длительности сеанса поиска и сокращения загрузки каналов связи необходимо проводить предварительный анализ Интернет ресурсов, ранжировать поисковые списки

3. Исследована проблема анализа и сравнительной оценки качества Интернет порталов в Я пространстве: методы таксономии были применены для решения задачи оценки разнородных критериев с целью их обобщенного сравнения. Разработаны различные варианты постановки и решения задач оценки качества образовательных Интернет порталов, что позволило разработать машинно-ориентированные алгоритмы оценки качества и ранжирования образовательных Интернет порталов.

4. Разработаны алгоритмы и математические модели для количественной оценки близости заданного набора показателей образовательных Интернет порталов к аналогичному набору требуемых (искомых) показателей. Модели дают возможность проводить ранжирование порталов в заданной системе показателей и составлять оптимальные списки поиска.

5. Разработана структура специализированной базы данных, содержащей информацию о содержании образовательных Интернет порталов, которую можно использовать при обработке поисковых запросов для сокращения длительности сеанса поиска и числа запросов к порталам, повышения качества поиска требуемых данных.

6. На базе разработанных машинно-ориентированных алгоритмов создан программный комплекс оценки качества образовательных Интернет порталов. Программный комплекс представляет собой полнофункциональную поисковую машину, реализующую поиск в специализированной базе данных с возможностью добавления и изменения существующей информации. В процессе обработки информации происходит оценка качества портала с использованием разработанных критериев качества, позволяющих оценить портал с учетом его направленности и особенностей сферы образования.

7. Проведены экспериментальные исследования, доказывающие эффективность предложенного в работе подхода.

Широкое распространение предлагаемой в диссертации технологии поиска на базе оценки качества информационных порталов позволит сократить затраты финансовых средств и времени на поиск нужной информации, и, как следствие, повысит эффективность использования ресурсов применяемых вычислительных средств.

Список литературы диссертационного исследования кандидат технических наук Седова, Татьяна Львовна, 2008 год

1. Айзерман А.А., Браверман Э.М., Розоноэр Э.И. Метод потенциальных функций в теории обучения машин. - М.: Наука, 1970.

2. Андерсон Т.В. Введение в многомерный статистический анализ. М. Физматиздат 1963 г.

3. Аркадьев А.Г., Браверман Э.М. Обучение машины распознаванию образов.

4. Банник В.Н., Червоненкис А.Я. Теория распознавания образов. М. Наука, 1974.

5. Бонгард М.М. Проблема узнавания. М. Наука, 1967.

6. Бочаров П.П., Печинкин А.В. Теория массового обслуживания. — М.: Изд-воРУДН, 1995.-529 с.

7. Вишневский В.М. Теоретические основы проектирования компьютерных сетей. -М.: Техносфера, 2003. 512с.

8. Волошин Г.Я., Бурлаков И.А., Косенкова С.Т. Статистические методы решения задач распознавания, основанные на аппроксимационном подходе. Владивосток: ТОЙ ДВО РАН, 1992.

9. Гладун В.П. Планирование решений. Киев, Наукова думка. 1987.

10. Ю.Горелик A.JL, Скрипкин В.А. Методы распознавания. М.: Высш. шк.,1977.

11. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976.

12. В.Н.Елкина, Загоруйко Н.Г., Новоселов Ю.А. Математические методы агроинформатики. Тр.ИМ СО АН СССР, Новосибирск, 1987г.

13. Елкина В.Н., Загоруйко Н.Г., Куклин А.П. Типы золотоносных территорий Чукотской складчатой области. Сб. "Колыма", N4, Магадан, 1974 г, с.41-45.

14. Елкина В.Н., Загоруйко Н.Г. Количественные критерии качества таксономии и их использование в процессе принятия решений. Тр. ИМ СО РАН серия "Вычислительные системы", 1969, вып. 36, Новосибирск, с.29

15. Загоруйко Н.Г. Метакритерий для отбора предикатов в алгоритмах прогнозирования. Тр. 3-го Сибирского Конгресса по прикладной и индустриальной математике (ИНПРИМ-98). Новосибирск, 1998,Часть IV, с.95-96

16. Загоруйко Н.Г. Методы распознавания и их применение. М.: Сов. радио, 1972.

17. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск, 1999 г.

18. Загоруйко Н.Г., Ёлкина В.Н., Емельянов С.В., Лбов Г.С. Пакет прикладных программ ОТЭКС. М.: Финансы и статистика, 1986.

19. Загоруйко Н.Г., Заславская Т.И. Распознавание образов в социальных исследованиях. Новосибирск, Наука, 1968 г.

20. Кемени Дж., Снелл Дж. Конечные цепи Маркова.- М.:Наука, 1970. 272 с.

21. Клейнрок JI. Вычислительные системы с очередями. Пер. с англ. Под ред. Б.С. Цыбакова.- М.: Мир. 1979. 600 с.

22. Лбов Г.С. Методы обработки разнотипных экспериментальных данных. М. Наука. 1967.

23. Мамчур. Е. А. Проблема выбора теории. М. Наука 1975.

24. Моисеев И.Н. Алгоритмы развития М., Наука 1987.25.0лифер В.Г., Олифер Н.А. Компьютерные сети. Принципы, технологии, протоколы. СПб.: Питер, 1999. 672 с.

25. Патрик Э. Основы теории распознавания образов. М.: Сов. радио, 1980. Перевод с английского Киев, Техника, 1965г.

26. Себастьян Г.С. Процессы принятия решений при распознавании образов.

27. Танненбаум Э., М. Ван Стен. Распределенные системы. Принципы ипарадигмы. СПб.: Питер, 2003. - 877 с.

28. Фу К.С. Последовательные методы в распознавании образов и обучении машин. М.: Наука, 1971.

29. Фу К.С. Структурные методы в распознавании образов. М.: Мир, 1977.31 .Материалисты древней Греции. Изд. "Мир", Москва, 1957.

30. N.G.Zagoruiko, T.I.Zaslavska. On possibility of pattern recognition methods utilization in sociological researh. Int.J."Quanlity and Quantity" v.IV (1970), n.2, pp. 365-374.

31. Воробьева Г.И., Седова Т.JI. Технологии определения рейтингов порталов //Научно-информационный журнал «Вестник Московского государственного университета леса -Лесной вестник» № 4 (53) Издательство МГУ Л, 2007г. с. 161-164

32. Седова Т.Л. Математическое моделирование образовательных порталов //Материалы Международной конференции «Информационные технологии и системы: наука и практика. Владикавказ, Изд-во Владикавказского научного центра, 2002, с.166-169.

33. Седова Т.Л. Образовательные порталы — краеугольный камень открытого образования//Материалы международной конференции «Новые информационные технологии в науке, образовании, экономике» Владикавказ, СКГТУ: Изд-во «Терек» 2002г., с.8-9.

34. Седова Т.Л. Структура и информационное наполнение образовательного портала// Материалы всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий», изд-во ВСГТУ, Улан-Удэ:, 2002. с.293-295.

35. Седова Т. JI. Создание современных Интернет-порталов // Труды Всероссийской научно-методической конференции «Телематика 2002» Санкт-Петербург, 2002 с.88-89.

36. Седова Т.Д. Пути создания оптимального портала//Труды X Всероссийский научно-методической конференции «Телематика 2003» Санкт-Петербург, 2003 с. 171-172.

37. Седова T.JI. Принципы построения механизма поиска образовательных ресурсов на образовательных сайтах// Труды XI Всероссийской научно-методической конференции «Телематика 2004» Санкт-Петербург, 2004 с.116-117.

38. Седова T.JI. Разработка критериев оценки образовательных порталов //Труды XII Всероссийской научно-методической конференции «Телематика 2005», Санкт-Петербург, 2005 с. 138.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.