Повышение релевантности периодического тематического поиска информации в Web тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Максаков, Алексей Владимирович

  • Максаков, Алексей Владимирович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2007, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 117
Максаков, Алексей Владимирович. Повышение релевантности периодического тематического поиска информации в Web: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2007. 117 с.

Оглавление диссертации кандидат физико-математических наук Максаков, Алексей Владимирович

ВВЕДЕНИЕ.

1. Обзор методов решения задачи периодического тематического поиска

1.1 Особенности задачи информационного поиска в Web.

1.2 Показатели качества поиска.

1.3 Требования к системам периодического тематического поиска и критерии их эффективности.

1.4 Существующие решения задачи периодического поиска в Web. 18 1.4.1 Периодический поиск с использованием систем поиска по ключевым словам.;.

1.4.2. Периодический поиск с использованием мета-информационнных поисковых систем.

1.4.3. Периодический поиск новой информации на подмножестве источников информации Web.

1.4.4.Поиск обновлений в тематических каталогах.

1.5 Основные подходы к решению задачи тематической фильтрации

1.5.1 Сравнение метода поиска по ключевым словам с методами поиска, основанными на использовании методов машинного обучения

1.5.2 Оценка необходимого объема вычислений для обработки новой информации Web.

1.5.3 Варианты практического использования методов машинного . обучения для решения задачи периодического тематического поиска.

1.6 Выводы.

2. Метод периодического тематического поиска, основанный на использовании классификаторов.

2.1 Постановка задачи.

2.2 Описание предложенного метода.

2.2.1 Схема работы метода.

2.3 Алгоритм составления запроса по ключевым словам на основе обучающей выборки.

2.4 Обоснование предложенного метода.

2.5 Выводы.

3. Методы решения задачи классификации текстов.

3.1 Требования к алгоритмам классификации.

3.2 Метрики качества классификации.

3.3 Основные этапы классификации текстов.

3.4 Основные подходы к представлению текстов.

3.4.1 Использование морфологического анализа.

3.4.2 Использование синтаксического анализа.

3.4.3 Определение пространства признаков.

3.4.4 Методы выбора признаков.

3.4.5 Кластеризация признаков.

3.4.6 Отбор фраз.

3.4.7 Определение весов признаков.

3.5 Оценка алгоритмов классификации на коллекциях документов.

3.6 Критерии сравнения алгоритма классификации.

3.7 Обзор алгоритмов классификации.

3.7.1 Метод Байеса.

3.7.2 Алгоритм ЯоссЫо.

3.7.3 Вероятностный классификатор ТБГОР.

3.7.4 Метод к-ближайших соседей.

3.7.5 Метод опорных векторов.

3.7.6 Нейронные сети.

3.7.7 Деревья решений.

3.7.8 Алгоритмы построения булевских формул.

3.8 Сравнительный анализ алгоритмов классификации.

3.9 Описание масштабируемых алгоритмов классификации текстов79 3.9.1 Модификация метода Байеса.

3.9.2 Метод построения нескольких разделяющих гиперплоскостей

3.10 Сопоставление весов признакам для метода опорных векторов

3.11 Экспериментальное исследование алгоритмов классификации и способов представления документов.

3.11.1 Методология проведения экспериментов.

3.11.2 Описание тестовых коллекций.

3.11.3 Результаты экспериментов.

3.11.4 Выводы.

4. Практическая реализация предложенного подхода.

4.1 Архитектура реализации.

4.2 Способы получения анализируемого множества документов из Web

4.3 Практическая апробация предложенного подхода.

4.4 Выводы.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Повышение релевантности периодического тематического поиска информации в Web»

Развитие сетевых технологий, в том числе и сети Интернет, привело к значительному увеличению доступных информационных ресурсов и объемов передаваемой информации. Зачастую это разнородная, слабо структурированная и избыточная информация, обладающая высокой динамикой обновления. Необходимость эффективного использования этого колоссального и динамично изменяющегося объема информации обуславливает актуальность и значимость исследований в области информационного поиска.

В области информационного поиска отдельно выделяется задача тематического поиска, то есть целенаправленного поиска документов, относящихся с той или иной степенью релевантности к определенной теме, заявленной пользователем. При проведении исследований, обучении и профессиональной деятельности, в связи с высокой скоростью появления новой информации возникает потребность не только в нахождении сведений, соответствующих одной или нескольким темам, но и в постоянном получении новых данных. Одним из возможных вариантов удовлетворения этой потребности является периодическое обновление ранее полученных сведений, по аналогии с подпиской на тематические издания, такие как специализированные газеты и журналы. Для обеспечения такого рода доставки информации из Web необходимо решить задачу периодического тематического поиска, то есть такого поиска, при котором обновления ищутся не только на уже известных сайтах, но и ищутся новые сайты. Причем такой поиск ведется систематически, через определенные промежутки времени. Появление такого вида поиска также связано с особенностями Web, как информационного хранилища. Дело в том, что доступная информация динамически изменяется - появляются новые документы на уже известных Web-сайтах, а также появляются новые Web-сайты. Так, согласно [29], число Web-сайтов растет экспоненциально и за полгода, на момент опубликования статьи, прирост количества сайтов составил порядка 20 тысяч.

Отдельно следует рассмотреть вопрос востребованности сервиса периодического тематического поиска. Огромный объем информации, доступной в Web, и высокая скорость ее обновления обуславливают необходимость в средствах автоматизации периодического тематического поиска для этого источника информации. Согласно опросу [95], проведенному в сентябре 2005 года в США исследовательским центром изучения социального влияния Интернет, все большее количество пользователей используются поисковые системы практически каждый день (63%). Также растет доля пользователей, использующих Интернет для поиска информации, связанной с профессиональной деятельностью. На момент проведения опроса число таких пользователей составляло более четверти от общего количества пользователей Интернет (28%). Можно говорить о потребности в тематическом поиске информации для таких пользователей (практически любая должность предполагает знание и использование информации из узкого набора тем, который слабо изменяется в процессе выполнения должностных обязанностей). Также следует отметить, что согласно опросу [95] респонденты занимаются таким поиском практически каждый день. Таким образом, можно сделать вывод, что более четверти пользователей Интернет занимаются, по сути, тематическим поиском, причем делают это бессистемно и тратят на процесс поиска достаточно большие ресурсы: личное время и ресурсы поисковых машин. Использование систем периодического тематического поиска позволяет автоматизировать и систематизировать процесс поиска информации для этой категории пользователей.

Необходимость постоянного получения новой информации релевантной заявленной теме при обучении, профессиональной деятельности, проведении научных исследований и в других областях деятельности обуславливает практическую значимость решения задачи периодического тематического поиска документов в Web.

С точки зрения пользователя процесс поиска будет выглядеть следующим образом:

Следует отметить, что сервис периодической доставки релевантных документов имеет практический смысл только в том случае, если тематическая потребность остается актуальной и неизменной в течение большого промежутка времени. В этих условиях можно сформулировать следующие особенности задачи периодического поиска в Web:

• Высокая динамичность и объем пространства поиска (согласно оценкам ежемесячно изменяется до 40% [63] общего объема доступной информации, составляющего более чем 11 млрд. web-страниц [53])

• Информационная потребность пользователя слабо изменяется со временем и остается актуальной в течение большого промежутка времени (носит долговременный характер).

Механизм периодического тематического поиска рис. 1.1. Процесс поиска с использованием систем периодического тематического поиска в Web

• Результаты поиска необходимо предоставить пользователю в течение ограниченного, вполне определенного интервала времени.

В области поиска информации исторически выделяются два сильно связанных типа задач [30,31,82]: информационного поиска (information retrieval) и фильтрации информации (information filtering). Системы информационного поиска применяются в условиях высокой изменяемости информационной потребности пользователей и относительной статичности используемого хранилища информации. Системы фильтрации информации напротив, предназначены для получения релевантных документов из высоко динамичных источников информации, но при этом делается допущение о том, что интересы пользователей слабо изменяются со временем. Условие долговременности информационной потребности позволяет отнести задачу периодического тематического поиска к классу задач тематической фильтрации информации.

Традиционно задача фильтрации информации рассматривается как задача выбора релевантных данных из постоянно изменяющихся потоков документов [85,89], таких как новостные сообщения [33,70,104,113], почтовые сообщения [42,67,97]. Отличие задачи фильтрации на всем Web от традиционной задачи фильтрации состоит в том, что протокол передачи данных в Web HTTP [80] реализует модель "запрос-ответ" и не позволяет оповещать об изменениях в данных. Это приводит к тому, что обнаружить все изменения в Web можно только проанализировав всю доступную информацию, объем которой очень велик. Образно говоря, задача фильтрации в Web отличается от традиционной примерно так же, как работа коммивояжера отличается от работы продавца в магазине.

В традиционных методах фильтрации для описания информационной потребности используются как наборы ключевых слов [33,113], так и обучающие коллекции документов [42,67,97]. Существуют методы информационной фильтрации и для всего Web [36,86], но в них для описания 8 информационной потребности используются только наборы ключевых слов. Методы, основанные на использовании запроса по ключевым словам, будем в дальнейшем называть методами поиска по ключевым словам.

К недостаткам метода поиска по ключевым словам относят слабую выразительность языка запросов и высокую сложность составления оптимального запроса, что приводит к низкому качеству тематического поиска в Web. С другой стороны существует множество успешно применяемых методов определения тематической принадлежности документов, в том числе и с использованием алгоритмов классификации (или методов машинного обучения [1]), использующих обучающие коллекции документов. Однако высокая вычислительная сложность задач обучения и классификации ограничивает практическую применимость таких методов для Web.

В этих условиях разработка метода периодического тематического поиска в Web в условиях долговременности информационной потребности пользователя и динамичности пространства поиска, повышающего качество поиска по сравнению с традиционными методами, представляется актуальной.

Основным вкладом данной работы, определяющим ее научную новизну, является создание метода периодического тематического поиска, успешно сочетающего методы поиска по ключевым словам, обеспечивающие высокую полноту охвата информационных источников в Web, и методы тематической фильтрации, основанные на машинном обучении, позволяющие достичь более высокого качества поиска по сравнению с другими известными методами. Повышение качества поиска в рамках автоматизированного процесса нахождения новой тематически-ориентированной информации по сравнению с существующими методами обуславливает практическую ценность предложенного метода.

Основные результаты, полученные автором в ходе исследования и вынесенные на защиту, заключаются в следующем:

1. Предложен новый метод периодического тематического поиска информации в Web, созданный на основе композиции метода поиска по ключевым словам и метода тематической фильтрации с помощью классификаторов текстов. Данный метод учитывает долговременный характер информационной потребности и динамичность пространства поиска и позволяет повысить релевантность результатов поиска.

2. Разработаны оригинальные масштабируемые алгоритмы классификации, обладающие меньшей вычислительной сложностью обучения и сопоставимым качеством классификации по сравнению с одним из лучших известных алгоритмов - методом опорных векторов: алгоритм на основе построения нескольких разделяющих гиперплоскостей для решения задачи бинарной классификации модифицированный алгоритм Байеса для случая большого количества классов в обучающей выборке

3. Сформулированы условия эффективного совместного применения алгоритмов классификации и способов предварительного анализа текста при построении систем периодического тематического поиска.

4. Реализован прототип системы периодического тематического поиска в Web и получены экспериментальные оценки полноты и точности предложенного метода, показывающие его преимущество перед существующими методами.

Содержание диссертации организовано следующим образом:

• В главе 1 дается обзор методов информационного поиска в Web и тематического поиска с точки зрения их применения для решения задачи периодического тематического поиска. Описываются базовые технологии, достоинства и недостатки методов, общепринятые методы оценки релевантности результатов поиска.

• В главе 2 описана схема работы нового метода периодического тематического поиска, основанного на комбинации традиционного

10 метода поиска по ключевым словам и тематической фильтрации документов с помощью методов машинного обучения. Приводится обоснование эффективности предложенного метода по сравнению с традиционным методом поиска по ключевым словам при выполнении определенных условий. Обсуждается выполнимость этих условий на практике. Описываются требования к алгоритмам классификации в рамках предложенного метода.

• Глава 3 содержит обзор и сравнительный анализ алгоритмов классификации, рассматриваются предложенные автором способы представления документов и масштабируемые алгоритмы классификации. Экспериментальное исследование алгоритмов на различных коллекциях реальных текстов позволяет утверждать, что о Предложенные алгоритмы обладают сопоставимым качеством классификации по сравнению с лучшими известными алгоритмами при меньшей вычислительной сложности обучения о Использование предложенных способов представления документов позволяет повысить качество классификации по сравнению со случаем использования общепринятых способов представления.

• В главе 4 описывается практическая реализация прототипа системы периодического тематического поиска, и приводятся результаты апробации предложенного метода на реальных данных, в том числе и с учетом периодической составляющей поиска. Исследовано влияние обратной связи пользователя с системой на качество поиска. Предложены способы и средства повышения эффективности предложенного метода, включающие в себя различные способы повышения полноты поиска и актуализации данных в индексе поисковой системы.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Максаков, Алексей Владимирович

4.4 Выводы

Проведенная апробация прототипа системы периодического тематического поиска показала, что использование предложенного метода приводит к улучшению качества поиска по сравнению с традиционным методом поиска по ключевым словам. Также было показано, что увеличение количества обучающих примеров и учет обратной связи пользователя с системой поиска как правило приводят к повышению релевантности

101 полученных результатов. Результаты экспериментов позволяют говорить о перспективности предложенного метода для повышения релевантности периодического тематического поиска в Web.

Заключение

К основным результатам, полученным автором и описанным в данной диссертации (главы 2,3 и 4), относятся:

1. Предложен новый метод периодического тематического поиска информации в Web, созданный на основе композиции метода поиска по ключевым словам и метода тематической фильтрации с помощью классификаторов текстов. Данный метод учитывает долговременный характер информационной потребности и динамичность пространства поиска и позволяет повысить релевантность результатов поиска.

2. Разработаны оригинальные масштабируемые алгоритмы классификации, обладающие меньшей вычислительной сложностью обучения и сопоставимым качеством классификации по сравнению с одним из лучших известных алгоритмов - методом опорных векторов: алгоритм на основе построения нескольких разделяющих гиперплоскостей для решения задачи бинарной классификации модифицированный алгоритм Байеса для случая большого количества классов в обучающей выборке

3. Сформулированы условия эффективного совместного применения алгоритмов классификации и способов предварительного анализа текста при построении систем периодического тематического поиска.

4. Реализован прототип системы периодического тематического поиска в Web и получены экспериментальные оценки полноты и точности предложенного метода, показывающие его преимущество перед существующими методами.

Данная работа объединяет два различных подхода к решению задачи тематического поиска: метод поиска по ключевым словам и методы тематической фильтрации, основанные на использовании классификаторов текстов. Разработанный метод позволяет эффективно решать задачу периодического тематического поиска в Web за счёт использования преимуществ обоих подходов и учета особенностей рассматриваемой задачи.

В качестве перспективного направления развития области диссертационного исследования следует отметить интеграцию систем автоматизированного периодического тематического поиска с тематическими сообществами, получившими широкое распространение в Web. С помощью такой интеграции можно добиться синергетического эффекта от объединения концепций совместного обучения (collaborative learning) [106] и машинного обучения, рассмотренного в данной работе. Так, тематические сообщества могут быть использованы в качестве поставщиков обучающих примеров для обучения классификаторов, а доступность автоматизированного сервиса периодического тематического поиска в свою очередь может интенсифицировать процесс анализа и обмена новой информацией внутри тематических Web-сообществ.

По теме диссертационного исследования опубликовано семь печатных работ [16-22].

Список литературы диссертационного исследования кандидат физико-математических наук Максаков, Алексей Владимирович, 2007 год

1. Агеев М. С. Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов. Дис. канд. физ-мат. наук: 05.13.11. Московский гос. унив. Москва, 2005.

2. Вайнцвайг М.Н. Алгоритм обучения распознаванию образов "Кора" // Алгоритмы обучения распознаванию образов / Под ред. В.Н. Вапника. — М.: Сов. радио, 1973, стр. 110-116.

3. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979.

4. Губин М. Исследование качества информационного поиска с использованием пар слов// Седьмая Всероссийская научная конференция RCDL. Ярославль, 2003

5. Зализняк А. Грамматический словарь русского языка. Русский язык, Москва, 1980

6. Кураленок И., Некрестьянов И. Оценка систем текстового поиска// Программирование. — 28(4), 2002, стр. 226-242 Коржов В. Программы локального поиска// Журнал "Открытые системы" #11, 2005

7. Максаков A.B. Исследование способов уменьшения набора характеристик в алгоритмах классификации текстов// Труды Всероссийской научной конференции "Методы и средства обработки информации" -М.: Издательский отдел факультета ВМиК МГУ, 2003, стр. 234-240.

8. Максаков A.B. Масштабируемые алгоритмы классификации текстов// Труды 12-й конференции "Математические методы распознавания образов" (ММРО-12), Москва, 2005.106

9. Максаков A.B. Обеспечение контекстного поиска информации для баз знаний// Искусственный интеллект (Донецк), 2002 № 2, стр. 493-500

10. Труды РОМИГГ2003// НИИ Химии СПбГУ / Под ред. И.С.Некрестьянова — Санкт-Петербург, 2003 — 132 стр.

11. Baeza-Yates R., Ribeiro-Beto В. Modern Information retrieval. New York: ACM Press, 1999.

12. Baker L., McCallum A. Distributional Clustering of Words for text Classification// Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1998. p. 96-103

13. Barfourosh A., Nezhad H., Anderson M., Perils D. Information Retrieval on the World Wide Web and Active Logic: A Survey and Problem Definition// Technical report CS-TR-429. College Park: University of Maryland, 2002. p. 1-45.

14. Baudisch P., Dynamic Information Filtering. GMD Research series 2001 No 16, Darmstadt Technology University, 2001, Germany

15. Belkin N., Croft W. Information filtering and information retrieval: two sides of the same coin?// Communications of the ACM, Volume 35 , Issue 12. New York: ACM Press, 1992. p. 29 38

16. Bergman M. Deep Web: Surfacing Hidden Value// The Journal of Electronic Publishing 7(1), 2001.

17. Binkley J., Young L. Rama: An Architecture for internet information filtering// Journal of Intelligent information systems #5. Hingham: Kluwer academic publishers, 1996. p.81-99.

18. Brake D. Lost in Cyberspace // New Scientist. London: Red Business, 1997. p. 12-13.

19. Brin S., Page L. The anatomy of a large-scale hypertextual Web search engine// Computer Networks 30(1-7). London: Elsevier, 1998. p. 107-117.

20. Bun K., Ishizuka M. Emerging Topic Tracking System// Proceedings of Web Intelligence Conference. London: SpringerVerlag, 2001. p. 125-130.

21. Chakrabarti S. Data Mining for hypertext: A tutorial survey// SIGKDD Explorations, vol.1, issue 2. New York: ACM Press, 2000. p. 1-10

22. Chakrabarti S. Mining The Web Discovering Knowledge From Hypertext Data. San Francisco: Morgan Kaufmann Publishers, 2004

23. Chakrabarti S., Berg M., Dom B. Focused Crawling: A New

24. Approach to Topic-Specific Web Resource Discovery// In Proc. ofththe 8 conference on WWW. New York: Elseiver North Holland, 1999. p. 1623-1640.

25. Chen H., Dumais S. Bringing Order to the Web: Automatically Categorizing Search // Proceedings of ACM SIGCHI Conference on Human Factors in Computing Systems, Vol. 1. New York: ACM Press, 2000. p. 145-152

26. Cohen W., Fast Effective Rule Induction// Proceeding of 20th International Conference on Machine Learning. Tahoe: Morgan Kaufmann Publishers, 1995. p. 115-123.

27. Diao Y., Lu H., Wu D. A comparative study of classification-based personal E-Mail filtering// In proceedings of 4th Pacific-Asia Conference on Knowledge Discovery and Data Mining. Kyoto: Springer Verlag, 2000. p.408-419.

28. Douglis F., Ball T., Chen Y., Koutsofos E. The At&T Internet Difference Engine: Tracking and Viewing changes on the Web// World Wide Web #1: 1998. p. 27-44.

29. Driori O., Aron N. Using documents classification for displaying search results list// Journal of Information Science, 29, vol. 2. London: Chartered Institute of Library and Information Professionals, 2003. p. 97-106.

30. Dumais S., Cutrell E., Chen H. Optimizing search by showing results in contextII CHI '01: Proceedings of the SIGCHI conferenceon Human factors in computing systems. New York: ACM Press, 2001. p. 277-284.

31. Dumais S., Platt J., Heckerman D., Sahami M. Inductive learning algorithms and representations for text categorization. // In Proceedings of International Conference on Information and Knowledge Management. New York: ACM Press, 1998. p. 148155.

32. Eichler K. Automatic Classification of Swedish Email Messages. Master thesis, Eberhard-Karls-University, Sweden, 2005. http://www.sfs.uni-tuebingen.de/iscl/Theses/eichler.pdf

33. Filman R. Searching the Internet// IEEE Internet Computing, July 1998. p. 21-23

34. Fisher R. The use of multiple measurements in taxonomic problems// Eugenics, 7: 1936. p. 179-188

35. Frakes W., Baeza-Yates R. Information retrieval: Data structures and algorithms. Prentis Hall,Upper Saddle River, NJ, USA: 1992.

36. Francopoulo G. Experiments with Chunker and Lucene// Advances in Cross-Language Information Retrieval, Third Workshop of the Cross-Language Evaluation Forum, CLEF 2002. Heidelberg: Springer, 2002. p. 336-337.

37. Furnkranz J. A study using n-gram features for text categorization// Technical report OEFAI-TR-98-30. Vienna: Austrian Institute for Artificial Intelligence, 1998. p. 1-10.

38. Gulli A., Signorini A. The Indexable Web is more than 11.5 billion pages// Special interest tracks and posters of the 14th international conference on World Wide Web. New York: ACM Press, 2005. p. 902-903.

39. Haykin S. Neural Networks: A Comprehensive Foundation. New York: Macmillan College Publishing, 1994

40. Hersh W. OHSUMED: An Interactive Retrieval Evaluation and New Large Test Collection for Research// Proceedings of the 17th Annual International Conference on Research and Development in Information Retrieval/ New York: Springer-Verlag, 1994. p. 192201.

41. Hofmann T. Probabilistic latent semantic indexing// In Proc. of the SIGIR'99. NY: ACM Press, 1999. p. 50-57. Ingwersen P. Information retrieval interaction. London: Taylor Graham Publishing: 1992.

42. Joachims. A Probabilistic Analysis of the Rocchio algorithm with TFIDF for text categorization// Proc. of Int. Conf. on Machine Learning (ICML). San Francisco: Morgan Kaufmann Publishers, 1997. p. 143-151.

43. Joachims T. Estimating the Generalization Performance of a SVM Efficiently. // Proceedings of the International Conference on Machine Learning. San Francisco: Morgan Kaufman, 2000. p. 431438.

44. Joachims T. Making large-scale SVM learning practical// Advances in kernel methods: Support vector learning. Cambridge: MIT-Press, 1999. p. 169-184.

45. Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. // Proceedings of ECML-98, 10th European Conference on Machine Learning. Heidelberg: Springer, 1998. p. 137-142.

46. Juan, A., Ney, H.: Reversing and Smoothing the Multinomial Naive Bayes Text Classifier. In: Proc. of the 2nd Int. Workshop on Pattern Recognition in Information Systems (PRIS 2002). Alacant (Spain): 2002. p. 200-212

47. Kahle B. Preserving the Internet// Scientific American: March 1997. p. 82-83

48. Khare R., Cutting D., Sitaker K., Rifkin A. Nutch: A Flexible and Scalable Open-Source Web Search Engine// CommerceNet Labs Technical Report #04-04. May 10, 2005. http://www.master.netseven.it/files/262-Nutch.pdf

49. Koch T., Ardo A., Bremmer A., Lundberg S. The building and maintenance of robot based internet search services: A review of current indexing and data collection methods// Technical report, Lund University Library, Sweden, 1996

50. Kobayashi M., Takeda K. Information retrieval on the Web// ACM Computing Surveys, vol.32, 2. New York: ACM Press, 2000. p. 144-173.

51. Kolesnikov O., Lee W., Lipton R. Filtering spam using search engines//Georgia Tech Technical Report, GIT-CC-03-58, 2003. ftp://ftp.cc.gatceh.edu/pub/coc/tech reports/GIT-CC-03-58.pdf

52. Kullback S., Leibler R. On Information and Sufficiency// The Annals of Mathematical Statistics, Vol. 22, No. 1 (Mar., 1951). p. 79-86

53. Kwon J., Rao P., Moon B., Lee S. FiST: scalable XML document filtering by sequencing twig patterns// Proceedings of the 31st international conference on Very large data bases. New York: ACM Press, 2005. p. 217-228

54. Lang K. Newsweeder: Learning to filter netnews// Proceedings oftfithe 12 International Conference on Machine Learning. San Mateo: Morgan Kaufmann, 1995. p. 331-339.

55. Lawrence S., Giles C. Accessibility of information on the Web// Nature, 400 (July 8, 1999), p. 107-109

56. Lawrence S, Giles C. Context and page analysis for improved web search// IEEE Internet computing, vol.2, issue 4, 1999. p. 38-46

57. Lawrence S., Giles C. Inquirus, The {NECI} Meta Search Engine// Proc. Of 7th International World Wide Web Conference. Brisbane: Elsevier Science, 1998. p. 95-105.

58. Lawrence S., Giles C. Searching the World Wide Web// Science, 280(5360), 1998. p. 98-100.

59. Lewandowski D., Wahlig H., Gunnar M. The freshness of Web search engines' database// Journal of Information Science vol. 32, issue 2,2006. p. 131-146.

60. Lewis D. An Evaluation of Phrasal and Clustered Representation on a Text Categorization Task// Proceedings of International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1992. p. 37-50.

61. Lewis D. Representation and learning in information retrieval. Dissertation, Dept. Of Computer and Information Science, Univ. of Massachusetts, 1992

62. Lewis D. Reuters-21578 text categorization test collection. Distribution 1.0. http://www.daviddlewis.com/resources/testcollections/reuters21578 /readme.txt

63. Liao C., Alpha S., Dixon P. Feature preparation in text categorization// Proc. of Australian Data Mining Workshop. Sydney: University of Technology, 2003. p. 23-34

64. Liu L. Query routing in large-scale digital library systems// In proc.th

65. Of the 15 conference on Data Engineering. IEEE press, 1999. p. 154-163.

66. Mackassy S. New Techniques in Intellegent Information Filtering. Ph.D. dissertation thesis, New Brunswick, New Jersey, 2003.

67. Marchionini G. Information Seeking in Electronic Environments. Cambridge series on human-computer interactions, 9, Cambridge University Press, 1995.

68. Marshall R. Generation of Boolean classification rules. // Proceedings of Computational Statistics 2000. Heidelberg: Springer-Verlag, 2000. p. 355- 360.

69. Mladenic D. Turning Yahoo to Automatic Web-Page Classifier// Proceedings of the 13 European Conference on Artificial Intelligence (ECAI'98) Brighton, UK: ECCAI Press, 1998. p. 473474

70. Mostafa J. A multilevel approach to intelligent information filtering: model, system and evaluation// ACM transactions on information systems. New York: ACM Press, 1997. p. 368-399.

71. Menczer F., Belew R. Adaptive retrieval agents: Internalizing local context and scaling up to the Web// Machine learning, vol. 39, issue 2-3. Boston: Kluwer academic publishers, 2000. p. 203-242.

72. Nigam K., McCallum A., Thrun S., and Mitchell T. Learning to classify text from labeled and unlabeled documents// Proc. of the 15th National Conf. on Artificial Intelligence. Menlo Park: AAAI Press, 1998. p. 729-799.

73. Ntoulas A., Cho J., Olston C. What's new on the Web? Theevolution of the Web from a Search Engine perpective// Inthproceedings of the 13 International World Wide Web Conference. New York:ACM Press, 2004. p. 1-12.

74. Oard D. The State of the Art in Text Filtering// User Modeling and User-Adapted Interaction, Volume 7, Issue 3. Hingham: Kluwer Academic Publishers, 1997. p. 147-178

75. Osinski S., Weiss, D. Carrot2: Design of a flexible and efficient Web information retrieval framework// In Proceedings A WIC 2005. Heidelberhg: Springer, 2005. p. 439-444.

76. Pazzani M., Nguyen L., Mantik S. Learning from hotlists and coldlists: Towards a WWW information filtering and seekingagentII 7th International Conference on Tools with Artificial Intelligence. Washington: IEEE Computer Society, 1995. p. 492.

77. Provost J. Naive-Bayes vs. rule-learning in classification of Email// Technical Report AI-TR-99-284. Austin: The University of Texas, Department of Computer Sciences, 1999. p. 1-4.

78. Porter M. (1980). An algorithm for suffix stripping// Program, 14(3), p. 130-137.

79. Quinlan R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993

80. Rainie L. Search Engine use November 2005. PDF] http://www.pewinternet.org/pdfs/PIP SearchData 1105.pdf96. van Rijsbergen C. Information Retrieval. Butterworth's and Co. — London, 1979 — 2nd edition.

81. Sahami M., Dumais S., Heckerman D., Horvitz E. A Bayesian Approach to Filtering Junk E-Mail// In proceedings of the AAAI'98 Workshop on Learning for Text Categorization, p. 55-62.

82. Salton G., Wong A., and Yang C. A vector space model for automatic indexingII Communications of the ACM, 18(11), 1988. p. 613-620.

83. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval// Information Processing and Management, 24(5), 1988. p. 513-523.

84. Salton G., McGill M. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983

85. Sarawagi S., Nagaralu S. Data mining models as services on the internet// ACM SIGKDD explorations newletter, vol. 2, issue 1. New York: ACM Press, 2000. p. 24-28

86. Sebastiani F., Machine Learning in Automated Text Categorization//ACM Computing Surveys, vol.1,2002. p. 1-47115

87. Sebastiani F. Text Categorization// Text Mining and its Applications to Intelligence, CRM and Knowledge Management. Southampton: WIT Press, 2005. p. 109-129.

88. Sheth B. A Learning Approach to Personalized Information Filtering// Master thesis, Department of Electrical Engineering and Computer Science, 1994. 75 p.

89. Temperley D, Lafferty J., Sleator D. 1995.Link Grammar Parser. http://www.link.cs.cmu.edu/link

90. Twidale M., Nichols D., Smith G., Trevor J. Supporting collaborative learning during information searching// In proc. of 1st international conf. on collaborative learning. Mahwah: Lawrence Erlbaum associates, 1995. p. 367-370.

91. The Twelfth Text Retrieval Conference (TREC 2003). Appendix 1. Common Evaluation Measures. http://trec.nist.gov/pubs/trecl2/appendices/measures.ps

92. Vapnik V. The Nature of Statistical Learning Theory. SpringerVerlag, New York, 1995.

93. Voorhees E., Harman D. Overview of the seventh Text Retrieval Conference TREC 7// In Proceedings of the seventh Text Retrieval Conference TREC 7. Gaithersburg: NIST, 1998.

94. Wasson M. Classification Technology at LexisNexis // SIGIR 2001 Workshop on Operational Text Classification.

95. Wiener E., Pedersen, J., Weigend, A. A neural network approach to topic spotting// In Proceedings of SDAIR-95, 4th Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, 1995. p. 317-332.

96. Wong S., Yao Y. An information-theoretic measure of term specificity// Journal of the American Society for Information Science, 43(1): p. 45-61, 1992.

97. Yan T., Garcia-Molina H. SIFT A tool for Wide-Area Information Dissemination// In proceedings of USENIX Technical conference. Berkley: USENIX association, 1995. p. 177-186.

98. Yang Y., Liu X. A re-examination of text categorization methods// Proc. of International ACM Conf. on Research and Development in Information Retrieval (SIGIR-99). New York: ACM Press, 1999. p. 42-49.

99. Yang Y., Pedersen J. A comparative study on feature selection in text categorization. // In: Proc. of ICML-97, 14th International Conf. On machine Learning. San Francisco: Morgan Kaufmann publishers, 1997. p. 412-420.

100. Zipf G. Human behaviour and the principle of least effort. Addison Wesley, 1949.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.