Разработка и исследование методов построения атрибутного тематического классификатора документов тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Ха Ти Чунг

  • Ха Ти Чунг
  • кандидат технических науккандидат технических наук
  • 2009, Таганрог
  • Специальность ВАК РФ05.13.17
  • Количество страниц 136
Ха Ти Чунг. Разработка и исследование методов построения атрибутного тематического классификатора документов: дис. кандидат технических наук: 05.13.17 - Теоретические основы информатики. Таганрог. 2009. 136 с.

Оглавление диссертации кандидат технических наук Ха Ти Чунг

ВВЕДЕНИЕ.

ГЛАВА 1. АНАЛИЗ ПРОБЛЕМ ТЕМАТИЧЕСКОЙ КЛАССИФИКАЦИИ, ПОСТАНОВКА ЗАДАЧИ СОЗДАНИЯ АТРИБУТНОЙ КЛАССИФИКАЦИИ.

1.1. Основные понятия и терминология.

1.2. Выбор математического инструментария для представления текстов.

1.3. Обзор классических методов текстовой классификации и кластеризации.

1.4. Анализ основных проблем в области тематической классификации.

1.5. Выводы.

ГЛАВА 2. РАЗРАБОТКА МОДЕЛЕЙ ОПИСАНИЕ ДОКУМЕНТОВ И ТЕМАТИК.

2.1. Выбор атрибутов классификации.

2.2. Разработка модели описания документов.

2.3. Разработка модели описания тематик.

2.4. Общий подход к построению классификатора.

2.5. Выводы.

ГЛАВА 3. РАЗРАБОТКА МОДЕЛИ КЛАССИФИЦИРУЮЩЕЙ ФУНКЦИИ И МЕТОДОВ ЕЕ НАСТРОЙКИ.

3.1. Модель классифицирующей функции.

3.2. Анализ порогов классификации и требований к структуре правильной обучающей выборки.

3.3. Представление частичных функций близости.

3.4. Формирование описания документа.

3.5. Формирование атрибутных множеств тематик классификатора.

3.6. Настройка классифицирующей функции путем подбора коэффициентов доверия.

3.7. Построение классифицирующей функции с использованием понятия лингвистической переменной.

3.8. Выводы.

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ АТРИБУТНОЙ КЛАССИФИКАЦИИ.

4.1. Структура экспериментальной модели.

4.2. Метод обработки функциональных областей и нормализация текста.

4.3. Извлечение термов из документа.

4.4. Экспериментальное исследование атрибутной классификации.

4.5. Выводы.

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка и исследование методов построения атрибутного тематического классификатора документов»

В последнее время интенсивно возрастает объем электронных изданий и документов, в интернете, локальных сетях, электронных' библиотеках, электронных каталогах и др. Так, например; по некоторым оценкам'объем цифровой информации в интернет удваивается каждый год [31]. Однако ограниченные возможности инструментариев поиска информации и ее классифицирования существенно затрудняет пользователю обращение, к релевантной его запросу информации;

Проблема" разработки эффективных , подходов к тематической классификации; документов стала сегодня объектом серьезных исследований. В рамках этой проблемы был разработан и предложен; ряд подходов, связанных с:

- выделением? и извлечением информационных объектов, определением : их статистических, лингвистических и семантических характеристик;

- построением, ссмантико-тематической структуры; документов и тематик;

- тематической фильтрацией документов; '

- и пр.

Этой проблеме-посвящен также ряд конференций и семинаров. Среди них можно отметить такие авторитетные, как:

- TREC (Text'REtrieval Conference Text Retrieval Evaluation Conference);

- SIGIR (Special Interest Group on Information Retrieval) конференции ACM (Association of Computing Machinery);

- RCDL - ежегодная всероссийская конференция "Электронные библиотеки";

- РОМИП - ежегодный Российский семинар по оценке методов информационного поиска;

- "Диалог" - Международная конференция по компьютерной лингвистике.

Также следует отметить ежегодную школу-семинар "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки", проводимую в Технологическом институте Южного федерального университета международной лабораторией ELDIC (Educational Laboratory of Distant Informational Communications).

Существует большое число работ, посвященных методам тематической классификации. Впервые полный обзор методов тематической классификации сделан в работе [65]. В работах [2, 54, 70] проведен сравнительный анализ статистических подходов классификации. В работах [1, 2, 11, 12, 18] авторы, попытались раскрыть дополнительные аспекты тематической классификации, а также возникающие в ней проблемы, связанные с использованием текстов на русском- языке. Так, разработке и тестированию» текстовых классификаторов посвящены труды таких авторов, как Е. Han, G. Karypis [42, 43], Т. Joachims [47], D: Lewis [49, 50], H. Schutze [64], F. SebastianL[37, 65], Y. Yang [69-74], S. T. Dumais [39, 40; 58] G. Salton [59-62] и др. В России анологичными-исследованями* занимаются! В.И. Шабанов [2], А.Е Ермаков [12], И.Е. Кураленок [45], И.С. Некрестьянов [18] и ряд других исследователей.

Работы ряда авторов по тематической классификации посвящены методам машинного обучения. Среди этого направления- можно отметить метод k-ближайщих соседей (k-NN) [33], метод опорных векторов (Support vector Machine - SVM) [8, 36, 47], нейронные сети (Neural Network) [1, 48], байесовские методы [51], центроидный метод (Centroid-based) [42] и др.

Несмотря на то, что существует много работ по тематической классификации, тем не менее, на сегодняв общем случае данная проблема до сих пор не решена. .Поэтому разработка методов и систем автоматической тематической классификации документов остается, одной из актуальных проблем в области информатики.

Настоящёе диссертационное, исследование выполнено в рамках данного направления и направлено на разработку и исследование моделей; и методов атрибутной тематической классификации документов.

Предметом диссертационного» исследования? является тематическая . , . , » классификация-документов.

Цель диссертационного» исследования. Разработка и исследование методовшостроения атрибутного тематического классификатора документов.

Для; достижения1 поставленной- цели в диссертации решаются? следующие основные задачи:

1. Построение и исследование моделей^ атрибутного описания документов, и тематик,, отличающихся; от известных моделей тем, что; традиционная; совокупность классификационных признаков дополнена атрибутными функциональными характеристиками.

2'.Разработкам способа? построения! классифицирующей; функции на основе: частичных функций близости атрибутных множеств документов; и тематик. ' ■ ." ' .

3. Разработка методов, построения* обучающих выборок, методов обучения* и настройки атрибутного классификатора' для тематической! классификации документов; .

4. Построение программной модели для экспериментального' исследования атрибутного классификатора и апробации теоретических выводов результатов.

5. Проведение экспериментального моделирования и исследования, разработанного атрибутного классификатора.

Методы диссертационного исследованиям Для решения выше перечисленных задач- в; диссертационном.исследовании использованы методы-математического и комбинаторного .анализов; методы нечеткой логики, методы; оптимизации, методы статистического анализа; методы лингвистического анализа; технология программированияl >

Научная новизна полученных результатов: Состоит в следующем:

1. Предложена модифицированная модель описания документа, которая отличаются от известных моделей тем, что наряду с описанием основного текста содержит ряд дополнительных атрибутов, таких как описания названия, авторов, аннотации, глоссариев и пр., а также таких атрибутов как ISBN, УДК, ББК и пр., которые соответствуют данному типу документов.

2. Предложена модифицированная модель описания тематики, атрибутивно согласованная с предложенной моделью описания документа, что позволяет устанавливать между документами и тематиками степень близости по однотипным атрибутам описаний.

3. Разработана классифицирующая функция на основе линейной комбинации частичных функций близости по типу "текст" <->"текст", "текст" «-^"экспертное знание", "экспертное знание"-«-^"экспертное знание", "описательные атрибуты"<->-"описательные атрибуты" Классифицирующая функция на основе частичных функций близости по типу "текст"<->"текст", "текст"<->-"экспертное знание", "экспертное знание"<->-"экспертное знание", "описательные атрибуты"<->"описательные атрибуты", которая в отличие от известных позволяет учитывать информацию из дополнительных атрибутов документов и тематик, а также введено понятие базового' классификатора, обладающего минимальной точностью.

4. Сформулированы в виде лемм требования к структуре правильно построенной обучающей выборки, правила и процедура обучения j классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи и разработаны методики коррекции обучающей выборки, что позволяет организовать обучение и настройку разработанного атрибутного классификатора.

5. Представлена классифицирующая функция в виде лингвистической переменной, а построенные правила нечеткого логического вывода используются для классификации, что позволяет существенно упростить переобучение атрибутного классификатора путем коррекции нечетких переменных и/или правил логического вывода.

Практическая ценность результатов диссертационной работы состоит в том, что разработанные методики построения описания документов и тематик, классифицирующей функции, методы ее настройки и обучения прошли экспериментальное моделирование и могут быть непосредственно использованы для построения эффективных тематических классификаторов.

Практическая значимость диссертации подтверждается актами о внедрении результатов исследования в рамках работ по госбюджетной НИР №12456 "Исследование и разработка гибридных логико-математических и нечетко-лингвистических моделей задач искусственного интеллекта, информационного поиска и распознавания образов" и учебном процессе по дисциплине "Организация электронных архивов данных" магистерской программы "Интеллектуальные системы" по направлению 230100 "Информатика и вычислительная техника" факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.

Предлагаемая модель тематического атрибутного классификатора была программно реализована и внедрена в научно-исследовательский процесс лаборатории ELDIC.

На защиту выносятся следующие результаты диссертационного исследования:

1. Атрибутные модели описания документа и тематики.

2. Классифицирующая функция на основе частичных функций близости по типу "текст" <->"текст", "текст"<->"экспертное знание", "экспертное знание"<->"экспертное знание" и "описательные атрибуты"<-»"описательные атрибуты".

3. Методы построения обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи, методика коррекции обучающей выборки на основе решения оптимизационной задачи.

4. Представление классифицирующей функции в виде лингвистической I переменной и правила нечеткого логического вывода для классификации.

Апробация работы. Основные результаты работы докладывались на:

- VIII Всероссийской научной конференции студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления (КРЭС'06)" (Таганрог, ТРТУ, 2006г);

- Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2007г);

- Всероссийской научной школе-семинаре молодых ученых, аспирантов -и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2008г);

- VI Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системы анализ и управление" (Таганрог, ТТИ ЮФУ, 04-05 декабря 2008г).

Публикации автора по теме диссертации. По теме диссертации автором опубликовано 7 печатных работ, в которых отражены основные результаты диссертации, в том числе одна статья в издании из списка, рекомендованного ВАК.

Структура и объём работы. Диссертация включает введение, четыре главы, заключение, список литературы и три приложения. Объем диссертации 136 страниц, список литературы содержит 75 наименований.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Заключение диссертации по теме «Теоретические основы информатики», Ха Ти Чунг

4.5. Выводы

Таким образом, в главе разработана программная модель для экспериментального моделирования разработанной атрибутной классификации и на нем поставлен ряд экспериментов, результаты которых подтвердили полученные в диссертации теоретические результаты.

В рамках экспериментального исследования атрибутного классификатора получены следующие результаты:

1. Представлена общая функциональная схема программной модели для проведения экспериментов по атрибутной классификации, описаны ее функциональные части и приведено пояснение работы подсистем. Приведенное описание этапов разработки системы позволяет рассмотреть практические проблемы, аспекты реализации и использования предложенных моделей, методов и алгоритмов.

2. Разработан и реализован программно метод определения функциональных областей документа. Метод использован при построении подсистемы ПАИ программной модели. Экспериментальное апробирование показало его хорошую работоспособность.

3. Разработан и реализован программно метод нормализации для очистки текстов и разбиения' текста на предложения. Метод использован при построении подсистемы ПАИ программной модели. Экспериментальное исследование данного метода показало его хорошую работоспособность.

4. Разработан и реализован программно метод выделения термов с подсчетом встречаемости термов в тексте по правилу сопоставления слов с синтаксическими группами. Данный метод использован, для' формирования описаний документов и тематик в подсистеме ПАИ' программной, модели. Экспериментальное исследование данного метода показало, чтоон показывает приемлемые результаты выделения > однословных и> многословных термов. Однако точность его работы существенно влияет на точность классификатора'.

5. Для- программной модели были созданы обучающие и- тестовые выборки и на них поставлены эксперименты, результаты которых проанализированы и сведены в таблицы. Эксперименты показали, что предложенные модели и методы позволяют создать на практике вполне приемлемый атрибутный классификатор документов по тематикам. Однако результаты экспериментов также показывают, что классификатор должен обладать хорошими лингвистическими средствами, которые существенно влияют на его точность.

Таким образом, экспериментальные результаты, проведенные на разработанной* программной модели, подтвердили основные теоретические положения; полученные в диссертационной работе.

ЗАКЛЮЧЕНИЕ

В настоящее время вопросы автоматической обработки текстовой информации являются очень актуальными. Диссертационное исследование выполнено в рамках данной тематики и посвящено разработке методов тематической классификации документов. В диссертационной работе разработаны и исследованы методы построения атрибутного тематического классификатора документов, в рамках чего получены следующие теоретические и практические научные результаты:

1. Проведено исследование существующего состояния теоретических и практических исследований в области классификации, которое показало, что при анализе документов не в полной мере учитываются атрибутные составляющие документов для построения классифицирующей функции. Сделан вывод о том, что учет информации из атрибутных характеристик документов мог бы существенно повысить точность классифицировании в условиях неполной информации по основному содержанию документов. Этот вывод составил существо предмета диссертационного исследования.

2. Для цели диссертационного исследования сформулированы основные терминологические понятия из области классификации, дана их содержательная и математическая интерпретация, выбран основной математический инструментарий, который учитывает модели представления документов и методы их анализа;

3. Предложена модифицированная модель описания документа, которая наряду с описанием основного текста содержит ряд дополнительных атрибутов, таких как описания названия, авторов, аннотации, глоссариев и пр., а также таких атрибутов как ISBN, УДК, ББК и пр., которые соответствуют данному типу документов;

4. Предложена модифицированная модель описания тематики, атрибутивно согласованная с предложенной моделью описания документа, что позволяет устанавливать между ними степени близости по однотипным атрибутам описаний;

5. Разработана конструкция классифицирующей функции Ф, аргументами в которой являются частичные функции близости gx, g2, g3, g4. Предложено функцию Ф представлять в виде линейной комбинации частичных функций близости, нормализованной на интервале [0,1]. Каждая такая функция отражает частичную близость документа тематике на основе типов: "текст"<-»"текст", "текст"*->"экспертное знание", "экспертное знание"<->"экспертное знание" и дополнительных атрибутов множеств описания. Введено- понятие базового классификатора, обладающего-минимальной точностью; а также сформулированы требования в виде лемм к структуре правильно построенной обучающей выборки;

6. Сконструирована обобщенная функция; важности термов и предложено формировать атрибутные множества на основе разработанного в, диссертации алгоритма извлечения термов.

7. Сформулированы правила и построена процедура обучения-классификатора путем- настройки коэффициентов доверия и порогов классифицирующей функции. Настройка коэффициентов, доверия и порогов классифицирующей функции сформулирована в» виде оптимизационной задачи.

8. На основе решения данной оптимизационной задачи разработана методика коррекции обучающей выборки.

9. Предложено представление классифицирующей функции в виде лингвистической переменной и построены правила нечеткого логического вывода, что позволяет существенно упростить переобучение классификатора путем коррекции нечетких переменных и/или правил логического вывода.

10. Разработана программная модель для моделирования разработанного атрибутного классификатора и на ней поставлены ряд экспериментов. Для этого были созданы обучающие и тестовые выборки документов и на них поставлены эксперименты, результаты которых проанализированы и сведены в таблицы. Данные результаты подтвердили полученные в диссертации теоретические выводы и показали, что предложенные в диссертации модели и методы позволяют создать на практике вполне приемлемый атрибутный тематический классификатор. Результаты экспериментов также показали, что классификатор должен обладать хорошими лингвистическими средствами выделение термов, которые существенно улучшают его точность.

Таким образом, разработанные методы атрибутной тематической классификации документов позволяют значительно повысить точность и адекватность тематической классификации.

Модели и методы, предложенные в диссертационной работе, могут быть применены на практике в областях информатики, для которых важен поиск документов и их тематической классификации.

Список литературы диссертационного исследования кандидат технических наук Ха Ти Чунг, 2009 год

1. Андреев A.M., Березкин Д.В., Сюзев В:В., Шабанов В.И. Модели и методы автоматической классификации, текстовых документов // Вестник МГТУ. Сер. Приборостроение; Mi:Изд-во МГТУ.-2003;-№3.

2. Блюмин С.Л., Шуйкова И.А., Сараев П.В., Черпаков КВ. Нечеткая логика: алгебраические основы и^ приложения: Монография. Липецк: ЛЭГИ, 2002. - 113 с.

3. Браславский П.ИСоколов Е.А. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2006. М.: Изд-во РГГУ, 2006. с. 88-94.

4. Ветров Д.П., Кропотов Д.А. Алгоритм выбора моделей и .построения коллективных решений в задачах классификации, основанные на принципах устойчивости — М.: КомКнига, 2006 — 112 с.

5. Заде JI.A. Понятие лингвистической переменной и его применение к принятию приближенных решений. М.: Мир, 1976. 165 с.

6. Заде JI.A. Основы нового подхода к анализу сложных систем и процессов принятия решений.- В кн.: Математика сегодня.- М.: Знание, 1974, с. 5-49.

7. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. 2000: -N11.- с. 81-93.

8. М.Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задачечслассификации // Информационные технологии. 2000. - N 12. - с. 40-61.

9. ХЪ.Исенбаева Е.Н. Симплекс-метод решения задачи линейного программирования: Методические указания к проведению практических занятий по курсу "Системный анализ". Ижевск: Ижевскийтос. техн. ун-т, 1999? - 14 с.

10. Когаловский М.Р. Перспективные технологии информационных систем. -М.: ДМК Пресс; М.: КомпаншгАйТи, 2003. 288 с.15 .Кузнецов А.В., Сакович В. А'., Холод Н.И. Высшая математика: Математическое программирование. Минск: Высшая школа, 1994.

11. Лобанов Б.М. Алгоритм сегментации текста на синтаксические синтагмы для синтеза речи, http://vmw.dialog-21.ru/dialog2008/materials/html/50.htm

12. Мелихов А.Н., Бернштейн Л.С., Коровин С.Я. Ситуационные советующие системы с нечеткой логикой. — Mi: Наука, Гл.ред. физ.мат. лит., 1990. — 272 с.

13. Некрестьянов И.С., Добрынин В.Ю., Клюев В.В. Оценка тематического подобия текстовых документов // Труды второй всероссийской научной конференции "Электронные библиотеки". Протвино, 2000. - С. 204-210.

14. Нечеткие множества в моделях управления и искусственного-интеллекта // Под ред. Д. А. Поспелова. -М.: Наука, 1986. 311 с.

15. Рыбаков Ф.И., Руднев Е.А., Петухов В.А. Автоматическое индексирование на естественном языке — М.: Энергия, 1980. —160 с.

16. Солтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А.И. Китова. — М.: Советское радио, 1973. 560 с.

17. Черный А.И. Введение в теорию информационного поиска. "Наука" -М., 1975.240 с.

18. Ха Т.Ч. Учёт особенностей вьетнамского языка в системе руссковьетнамского (вьетнамско-русского) машинного перевода. // Известия

19. ЮФУ. Технические науки. Тематический выпуск «Интеллектуальные

20. САПР».- Таганрог: Изд-во ТТИ ЮФУ. 2007. № 2 (77). -с. 206-210. t «

21. Ярушкина Н.Г. Основы теории нечетких и гибридных систем: Учеб. пособие. -М.: Финансы и статистика, 2004. -320 с.

22. Broder A. Z., Najork М., and Wiener J. L. 2003. Efficient URL caching for World Wide Web crawling. In Proceedings of the twelfth international conference on World Wide Web (WWW2003). Budapest, Hungary, p. 680-689.

23. Baker L.D., McCallum A. Distributed clustering of words for text classification. // II Proc. ICML-98. Toronto, 1997 - P. 359-367.

24. Belur V. Dasarathy. Nearest Neighbor (NN) Norms: NN Pattern Classification • Techniques. McGraw-Hill Computer Science Series. IEEE Computer Society

25. Press, Las Alamitos, California, 1991.

26. Billsus D., Pazzani M. Learning probabilistic user models. // Proceedings of the Conference in Information and Knowledge Management. Berlin, 1998 -Pp.656-669.

27. Cooper W.S. On selecting a measure of retrieval effectiveness // Journal of the American Society for Information Science. Hampton, 1973. - P. 65-79.

28. Cristianini N., Taylor J.S. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000.

29. Han E., Karypis G., Kumar V. Text categorization using weight adjusted k-nearest neighbor classification. // 16th International Conference on Machine Learning Denver, 1999. - P. 41-56.

30. Haris z., Mathematical Structures of Language. Interscience Publishers John Wiley & Sons, New York. 1968. -80. 230 p.

31. James A. Danowski. Wordij: A word-pair approach to information retrieval. In TREC, pages 131-136, 1992.

32. Joachims T. Text Categorization with Support Vector Machines: Learning with many relevant Features. In Proc. of the European Conference on Machine Learning, 1998.

33. Natural language workshop. Boston, 199h - P. 312-318.

34. Lewis D. Evaluating and optimizing autonomous text classification systems. // Proceedings of the 8th Annual Internationali ACM-SIGIR Conference on Research and Development in Information Retrieval. — Seattle, 1995. P. 246254.

35. McCallum A., Nigam К A Comparison of Event Models for Naive Bayes Text Classification // In AAAI -98 Workshop on Learning for Text Gategorization.-Madison, 1998: Pp. 541-560.

36. Mikheev A. Feature lattices and maximum entropy model.// Machine learning. -Stanford, 1999.1 -p. 39-52.

37. Monson L. Classifying Text with ID3 and'C4.5. // Dr Dobbs Journal. 1997. №10. Pp. 117-119.

38. Moulinier L. A framework for comparing text categorization approaches. // Journal of the American Society for Information Science. New York, 2000. №5.-P. 170-179. •

39. Nigam K, Lafferty J., McCallum A. Using maximum entropy for text classification. // AAAI-98 Workshop on Learning1 for Text Categorization. -Madison, 1998.- P 76-95.

40. Rocchio J.J. Document Retrieval Systems Optimization and Evaluation. Ph. D. thesis. - Cambridge (Mass). - 1966. - 19 p (Scientific Report № ISR-10, Harvard Computation Laboratory).

41. Robert Krovetz and W. Bruce Croft. Lexical ambiguity and information, retrieval. Information Systems, 10(2): 115—141, 1992.

42. Sahami M., Dumais S., Heckerman D., Horvitz E. A Bayesian Approach to Filtering Junk E-mail//Journal of ACM. 2000. №9(54). Pp. 240-257.

43. G. Salton, J. Allan, and C. Buckley. Approaches to Passage Retrieval in Full Text Information Systems. In Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 49-5 8,1993.

44. Salton G. Automatic text processing: the transformation, analysis and retrieval information by computer // ACM SIGIR Conference on Research and Development in Information Retrieval. -Cambridge, 1989: P. 109-131. .

45. Salton G:, McGill M. J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.

46. Salton G, Buckley C. Term-Weighting Approaches in Automatic Text Retrieval. // Information Processing and Management, —1988 — pp. 513-523'.

47. Sato S., Sasaki Y. Automatic Collection of Related Terms from the Web // The Companion Volume to the Proceedings of 41st Annual Meeting of the ACL, Sapporo, Japan, 2003. P. 121-124.

48. Schutze H., Hall D., Petersen J., A Comparison of classifiers and document representations for the routing problem. Proc. of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '95), 1995.

49. Sebastiani F. Machine Learning in Automated Text Categorization. ACM Computing Surveys, 34(1): 1-47, 2002.

50. Sugeno M, Tagaki Т., Fuzzy Identification of Systems and its Applications to Modelling and Control, IEEE Trans, on Systems, Man & Cybernetics, Vol: 15, pp. 116-132, 1985.

51. Vapnik V. Statistical Learning Theory. Wiley, 1998.

52. Wiener E., Pedersen J.O., Weigend A.S. A neural network approach to topic potting. // Proceedings of the Forth Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, 1995. P. 65-74.

53. Yang Y.} Chute G. An Example-based mapping method for text categorization and retrieval. ACM Transaction on Information Systems (TOIS), 1994. Pp 252177.

54. Yang Y. An evolution of statistical approaches to text categorization. Journal of the ACM. 1997. Vol. 29 (№1). Pp 18-46.

55. Yang Y., Xin Liu. A Re-Examination of Text Categorization Methods. Proc. of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '99), 1999.

56. Yang Y., Petersen J. A comparative study on feature selection in text categorization. In International Conference on Machine Learning (ICML), 1997.

57. Yang Y., Wilbur J. Using corpus statistics to remove redundant words.an text categorization. Journal of the American Society for Information Science, 1996. Pp 47(5):357-369.

58. Yang Y., Ault Т., Pierce T. Improving text categorization methods for event tracking. // http://www.cs.cmu.edu/-yiming/. 1995. Pp. 2-14.

59. Zipf G. K. Human Behaviors and the Principle of Least-Effort. — Cambridge , MA: Addison-Wesley, 1949.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.