Разработка и исследование алгоритмов сравнения стилей текстовых произведений

Шевелев, Олег Геннадьевич

Разработка и исследование алгоритмов сравнения стилей текстовых произведений тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Шевелев, Олег Геннадьевич

Шевелев, Олег Геннадьевич
кандидат технических наук
2006

Специальность ВАК РФ05.13.18

Количество страниц 176

Шевелев, Олег Геннадьевич. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Томск. 2006. 176 с.

Оглавление диссертации кандидат технических наук Шевелев, Олег Геннадьевич

Введение.

1. Обзор методов и программ количественного анализа текстов и постановка задач исследований и разработок.

1.1. Проверка текстов на близость стилей или однородность по стилю.

1.2. Кластеризация текстов.

1.3. Классификация текстов.

1.4. Программные продукты.

1.5. Постановка задач исследований и разработок.

2. Методы и алгоритмы сравнения стилей текстов по частотным признакам.

2.1. Сравнение стилей текстов по частотам появления признаков на основе статистических критериев.

2.1.1. Гипергеометрический критерий (двусторонний точный критерий Фишера).

2.1.2. Критерий хи-квадрат.

2.1.3. Сравнение распределений по критерию хи-квадрат.

2.1.4. Метод кластеризации текстов по частотным признакам.

2.1.5. Примеры анализа текстов.

2.2. Классификация текстов с помощью деревьев решений.

2.2.1. Алгоритм построения дерева решений.

2.2.2. Оверфиттинги отсечение.

2.2.3. Классификация по авторству. Влияние объемов фрагментов.

2.2.4. Классификация по авторству. Влияние порога отсечения.

2.2.5. Классификация по жанровым типам.

2.2.6. Классификация по источникам газет.

2.2.7. Оценка информативности признаков.

2.3. Классификация текстов с помощью метода Хмелева и его модификаций.

2.3.1. Проверка марковости текстов.

2.3.2. Мера Хмелева и альтернативные ей меры.

2.3.3. Классификация по авторству. Влияние объема фрагментов.

2.3.4. Классификация по жанровым типам.

2.3.5. Классификация по источникам газет.

2.4. Классификация текстов с помощью нейронных сетей прямого распространения.

2.4.1. Нормализация данных.

2.4.2. Алгоритм обучения.

2.4.3. Классификация по авторству. Вычислительные эксперименты.

2.5. Сравнение рассмотренных методов классификации.

2.6. Выводы.

3. Инструментарий анализа стилей текстов «СтилеАнализатор».

3.1. Язык задания частотных признаков.

3.1.1. Схема извлечения частотных признаков текстов.

3.1.2. Формат запроса. Язык задания частотных признаков.

3.1.3. Устройство интерпретатора языка.

3.2. Общая схема количественного анализа текстов в программе «СтилеАнализатор».

3.3. Работа с вертикальным текстом.

3.4. Предварительная обработка текстов.

3.5. Извлечение частотных признаков текстов.

3.5.1. Пользовательский интерфейс.

3.5.2. Привязка количественных данных к фрагментам текстов.

3.6. Предварительная обработка количественных данных.

3.7. Анализ частотных данных.

3.8. Выводы.

Введение диссертации (часть автореферата) на тему «Разработка и исследование алгоритмов сравнения стилей текстовых произведений»

Текст, как и многие другие виды представления информации, поддается анализу. Одной из возможных форм анализа текста является анализ его стиля.

Проблема анализа и сравнения стилей текстовых произведений является актуальной в филологических дисциплинах, изучающих стилистические особенности как текстов вообще, так и языка литературных произведений различных жанров, различных авторов, языковых диалектов и т.д., а также в психологии и теории искусственного интеллекта при изучении и моделировании мыслительной деятельности. Многие практические задачи сравнения стилей текстовых документов возникают в судебной практике и криминалистике.

Сравнивать стили текстов приходится в исторических исследованиях, чтобы определить время написания того или иного исторического документа, установить личность его автора. Наиболее известные среди этих исследований - атрибуция писем и эпиграмм Платона, анализ двенадцати спорных статей из «Бумаг республиканцев» (Federalist papers), автором которых может быть как Дж. Мэдисон, так и А. Гамильтон.

В литературоведческой практике сравнение стилей также необходимо для установления спорного авторства литературных произведений. Широко известен, например, спор об авторстве «Тихого Дона», произведений Шекспира. Не установлено точно авторство некоторых анонимных и псевдонимных публицистических статей, автором которых предположительно является Ф.М. Достоевский, ставится под сомнение авторство некоторых текстов М. Е. Салтыкова-Щедрина и т.д.

Алгоритмы сравнения стилей текстов важны также для информатики, поскольку с их помощью можно улучшить качество классификации и упорядочивания текстовых коллекций, что чрезвычайно актуально для постоянно расширяющейся сети Интернет.

Сравнение стилей текстов проводится, как правило, на основе совокупности ряда признаков («авторских инвариантов» и т.п.), отражающих свойства стилей текстов. Некоторые из этих признаков носят качественный характер и плохо поддаются формализации, хотя могут и обладать мощной разделительной способностью. Такие признаки условно назовем вербальными. Многие другие признаки (например, частоты появления определенных слов, знаков препинания, различных буквосочетаний) могут быть формализованы, что позволяет производить с их помощью количественный (частотный) анализ текстов.

АКТУАЛЬНОСТЬ РАБОТЫ

На базе сравнения стилей текстовых произведений решаются задачи проверки текстов на близость стилей или однородность по стилю, задача классификации и задача кластеризации текстов.

Проверкой текстов на близость стилей, в частности, занимались Mendenhall Т.С. [109], Морозов Н.А. [21], Фоменко Т.Г. и Фоменко В.П. [48]. Исследования по проверке однородности текстов проводили Morton A.Q. [112], Ashford Т. [68], Farringdon J.M. [86], Ковалевский А.П. [12] и др.

В рамках задачи кластеризации текстов в существующих публикациях рассмотрены различные известные методы кластеризации (метод k-средних, метод ближайшего соседа, метод центроидов, нейронные сети SOM и др.), а также их модификации. Иерархические методы кластеризации, в частности, использовали в своих работах Leouski

A.V., Croft W.B. [105], Beil F., Ester M., Xu X. [71], Cutting D. R., Karger D. R., Pedersen J. O., Tukey J. W. [79], Tantrum J., Murua A., Stuetzle W. [125]. Неиерархические методы кластеризации текстов исследовали в своих работах Zhong S., Gosh J. [135], Choudhary,

B., Bhattacharyya, P. [77], Steinbach M., Karypis G., Kumar V. [124] и др.

Наибольшее число работ в области сравнения стилей текстов посвящено задаче классификации текстов. В имеющихся публикациях рассматриваются различные методы классификации текстов. Среди них нейронные сети (Matthews R., Merriam Т. [107, 110], Kjell В. [100, 101, 102], Tweedie F.J., Singh S., Holmes D.I. [131], Lowe D., Matthews R. [106]), метод опорных векторов (de Vel О. [81], Joachims Т. [97], Diederich J. J. [82]), дискриминантный анализ (Baayen H., Tweedie F. [69], Patton J.M., Can F.A [116], Peng R.D., Hengartner N.W. [117]), метод сжатия данных (Frank E., Chui C., Witten I.H. [88], Teahan W.J. [126, 127], Хмелев Д. [49], Benedetto D. [73]), метод Хмелева Д. [18, 50], методы, основанные на извлечении правил (Apte С., Damerau F., Weiss S. [66, 67], Oakes M. [114], Holden N., Freitas A.A. [92]), и др.

Существует ряд программных систем, позволяющих производить разнообразные виды анализа текстов. Наиболее известными среди таких систем являются «Лингвоана-лизатор» Д.Хмелева [50], информационная система «СМАЛТ» [35, 37, 38], система «ВААЛ» 9.0 [34], PolyAnalyst 4.6 [39] (с модулем для работы с текстом TextAnalyst [40]), система DICTUM [103].

Несмотря на множество работ по сравнению стилей текстов, имеется ряд областей исследований, которые не затрагивались в других публикациях.

В сфере проверки текстов на близость стилей и кластеризации текстов неисследованным остается применение мер близости, основанных на точных статистических критериях сравнения частот появления признаков стилей.

В сфере классификации текстов остаются недостаточно исследованными зависимости качества классификации различными методами от объемов фрагментов, от числа классов. Нет исследований по сравнению качества классификации по различным сложным (в том числе грамматическим) признакам на размеченном и выверенном текстовом материале, исключающем ошибки разметки.

Несмотря на то, что в ряде работ говорится об использовании свойств марковости текста, никем не проводилось исследование того, является ли последовательность символов текста действительно реализацией простой цепи Маркова.

Все существующие программные реализации методов анализа текстов используют встроенный набор признаков стилей текстов, что не позволяет гибко менять признаки в ходе исследований и исключает возможность задания признаков пользователем, а не разработчиком. В частности, это относится и к одной из лучших программных реализаций систем классификации текстов - «Лингвоанализатора» Хмелева. Поэтому актуальным является создание механизма (лучше всего специализированного языка), обеспечивающего возможность задания пользователем любых желаемых признаков стилей текстов из достаточно широкого класса признаков.

Наконец, имеющиеся программные реализации систем анализа текстов не ориентированы на комплексное исследование и сравнение стилей текстов (для разных задач анализа текстов, с использованием различных методов их решения, различных частотных признаков, различного текстового материала). Поэтому актуальным является создание программной системы, позволяющей проводить подобные исследования.

ЦЕЛЬ РАБОТЫ

Целью работы является разработка алгоритмов и инструментария для сравнения стилей текстовых произведений. В рамках указанной цели поставлены и решены следующие задачи:

1) исследование качества работы ряда существующих методов математической статистики и искусственного интеллекта для сравнения стилей текстовых произведений по частотным признакам, задаваемым пользователем;

2) модификация известных и разработка новых мер сравнения частот для задач кластеризации и классификации текстов;

3) создание языка задания частотных признаков стилей текстовых произведений и его интерпретатора;

4) разработка и реализация программного комплекса для сквозного количественного анализа текстов от их первичной обработки до получения решений.

МЕТОДИКА ИССЛЕДОВАНИЙ

Для решения задач, обеспечивающих достижение поставленной цели, использовались методы математической статистики, искусственного интеллекта, а также методы объектно-ориентированного программирования.

НАУЧНАЯ НОВИЗНА РАБОТЫ

1. Предложены новые подходы для сравнения стилей текстов с использованием гипергеометрического критерия (двустороннего точного критерия Фишера) и критерия хи-квадрат по отдельным частотным признакам текстов, совокупности признаков, а также по их распределению.

2. Предложен новый подход к кластеризации текстов с использованием ранее не применявшихся в области обработки текстов таких мер сходства, как «частота рассогласования» (сложный признак) и интегральная мера рассогласования (совокупность признаков), получаемых на основе проверки гипотез о сходстве стилей текстов по частотным признакам.

3. Предложены модификации известного метода Хмелева классификации текстов по авторскому стилю с использованием для оценки расхождения частот мер Кульбака и хи-квадрат, а также модульных мер. Показано, что мера Хмелева является частным случаем меры Кульбака.

4. Доказана несостоятельность гипотезы о том, что последовательность символов текста обладает свойствами простой цепи Маркова.

5. Разработан оригинальный язык задания частотных признаков, позволяющий декларировать признаки и представлять их в виде шаблонов, пригодных для автоматического преобразования текстов к набору частот.

ПРАКТИЧЕСКАЯ ЦЕННОСТЬ РАБОТЫ

Разработанный программный комплекс «СтилеАнализатор» для анализа стилей текстов, обеспечивающий полный цикл проведения количественного анализа текстов, включающий предварительную обработку текстов, извлечение частотных признаков, их обработку и представление результатов в наглядном для человека виде, может быть широко использован специалистами в различных областях знаний (лингвистами, филологами, криминалистами, историками).

ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ

1. Новые подходы для сравнения стилей текстов с использованием гипергеометрического критерия и критерия хи-квадрат по отдельным частотным признакам текстов, совокупности признаков, а также по их распределению.

2. Новый подход к кластеризации текстов на основе проверки гипотез о равенстве частотных признаков стилей текстов с использованием таких мер сходства, как «частота рассогласования» и интегральная мера рассогласования.

3. Модификации известного метода Хмелева с использованием для оценки расхождения частот мер Кульбака и хи-квадрат, а также модульных мер.

4. Доказательство несостоятельности гипотезы о том, что последовательность символов текста обладает свойствами простой цепи Маркова.

5. Язык задания частотных признаков стилей текстов.

6. Программный комплекс «СтилеАнализатор» для анализа стилей текстов.

ВНЕДРЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ

Реализованный программный комплекс внедрен в лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ.

ПУБЛИКАЦИИ ПО РАБОТЕ

Основное содержание работы отражено в 16 публикациях, в т.ч. в 11 статьях [25, 29-31, 45, 54-55, 57-60] и в 5 докладах на конференциях [26-28, 44, 56].

АПРОБАЦИЯ РАБОТЫ

Результаты работы докладывались и обсуждались на следующих конференциях:

1. IV Межвузовская конференция студентов аспирантов и молодых ученых «Наука и образование», Томск, 2000.

2. V Общероссийская межвузовская конференция студентов, аспирантов и молодых ученных «Наука и образование», Томск, апрель 2001 г.

3. Нейроинформатика и ее приложения: XII Всероссийской семинар, Красноярск, октябрь 2004 г.

4. Информационные технологии и математическое моделирование: III Всероссийская научно-практическая конференция, Анжеро-Судженск, декабрь 2004 г.

5. XLIII Международная научная студенческая конференция «Студент и научно-технический прогресс»: Информационные технологии, Новосибирск, апрель 2005 г.

6. XI Международная научно-практическая конференция студентов и молодых ученых «Современные техника и технологии СТТ'2005», Томск, марта - апрель 2005 г.

7. IX Международная конференция студентов, аспирантов и молодых ученых «Наука и образование», Томск, апрель 2005 г.

8. Всероссийская научная конференция Квантитативная лингвистика: исследования и модели (КЛИМ - 2005), Новосибирск, июнь 2005 г.

9. Информационные технологии и математическое моделирование: IV Всероссийская научно-практическая конференция, Анжеро-Судженск, ноябрь 2005 г.

БЛАГОДАРНОСТИ

Автор выражает глубокую благодарность научному руководителю Поддубному В.В. за сотрудничество, помощь и поддержку в работе, Тютереву В.В. за сотрудничество на ранних этапах работы, Поликарпову А А., Кукушкиной О.В., Макарову А.Г. за обсуждение результатов работы и предоставление грамматически размеченного газетного корпуса, Сущенко С.П., Фукс И.Л. за поддержку, Скворцова А.В. за помощь и ценные советы, ФедякинаМ.В. за предоставление набора газетных текстов и обсуждение результатов.

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Шевелев, Олег Геннадьевич

3.8. Выводы

1. Разработан оригинальный язык задания частотных признаков, позволяющий декларировать сложные (в том числе грамматические) признаки элементов и последовательностей элементов текста различного уровня (букв, слов, предложений) и представлять эти признаки в виде шаблонов, пригодных для автоматического преобразования текстов к набору частот (пункт 3.1.2).

2. Разработан и реализован интерпретатор языка задания частотных признаков (пункт 3.1.3).

3. Создан программный комплекс для сравнения стилей текстов «СтилеАнализа-тор» (пункты 3.2-3.8), позволяющий проводить полный цикл анализа текстов, включая предварительную обработку текстов и их приведение к количественному виду (путем задания частотных признаков на разработанном языке), обработку полученных количественных данных, анализ этих данных с помощью различных методов (иерархического кластерного анализа по различным мерам, деревьев решений, метода Хмелева и его модификаций, нейронных сетей прямого распространения), представление в различных удобных для анализа видах, сохранение и загрузку промежуточных и конечных результатов обработки.

ЗАКЛЮЧЕНИЕ

Подробные выводы представлены в работе по главам. Здесь приведем только основные результаты.

1. Предложены новые подходы для сравнения стилей текстов по частотным признакам с использованием гипергеометрического критерия (двустороннего точного критерия Фишера) и критерия хи-квадрат.

2. Предложен новый подход к кластеризации текстов с использованием мер сходства «частота рассогласования» и интегральная мера рассогласования, получаемых на основе проверки гипотез о сходстве стилей текстов по частотным признакам.

3. Проведены исследования зависимости от объемов текстовых фрагментов качества классификации текстов по авторству с помощью деревьев решений. Показано, что качество классификации сначала растет в среднем с увеличением объемов фрагментов, а затем стабилизируется.

4. Проведены исследования по классификации с помощью деревьев решений текстов газетных статей по жанровым типам, источникам и различным наборам признаков. Установлено, что качество классификации с помощью деревьев решений является в целом не высоким, слабо зависит от набора признаков и по источникам несколько выше, чем по жанровым типам.

5. Предложены модификации метода Хмелева с использованием для оценки расхождения частот мер Кульбака и хи-квадрат, а также модульных мер. Показано, что мера Хмелева является частным случаем меры Кульбака.

6. Показано, что последовательность символов текста не обладает свойствами простой цепи Маркова.

7. Проведены исследования качества классификации текстов по авторству с помощью метода Хмелева и его модификаций в зависимости от объемов фрагментов. Показано, что, как и в случае использования деревьев решений, качество классификации сначала растет в среднем с увеличением объемов фрагментов, а затем стабилизируется.

8. Проведены исследования по классификации с помощью метода Хмелева и его модификаций текстов газетных статей по жанровым типам и источникам. Показано, что их применение позволяет с высоким качеством производить классификацию и по жанровым типам (75-100%), и по источникам (99-100%).

9. Произведено сравнение рассмотренных методов классификации текстов. Показано, что нейронные сети и метод Хмелева дают примерно одинаковые высокие показатели качества, а деревья решений - самые низкие показатели качества.

10. Разработан язык задания частотных признаков и реализован интерпретатор с этого языка.

11. Создан программный комплекс «СтилеАнализатор» для анализа стилей текстов. I

Список литературы диссертационного исследования кандидат технических наук Шевелев, Олег Геннадьевич, 2006 год

1. Аптон Г. Анализ таблиц сопряженности. М.: Финансы и статистика, 1982. - 144 с.

2. Головин Б.Н. Язык и статистика. М.: Изд-во «Просвещение», 1971.- 189с.

3. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений. Изд. 4-е. М.: Наука (Гл. ред. физ.-мат. лит.), 1962. - 1100с.

4. Жамбю М. Иерархический кластер-анализ и соответствия. М.: Финансы и статистика, 1988.-342 с.

5. Журавлев А.П. Фонетическое значение. Л.: Изд-во Ленингр.ун-та, 1974. -160с.

6. Закс Л. Статистическое оценивание. М.: Статистика, 1976. - 600 с.

7. Нейман Ю. Вводный курс теории вероятностей и математической статистики. М.: Наука (Гл. ред. физ.-мат. лит.), 1968. - 448 с.

8. Кендэлл М. Дж., Стьюарт А. Теория распределений. М.: Наука (Гл. ред. физ.-мат. лит.), 1968. - 588 с.

9. Кемени Дж., Снелл Дж. Конечные цепи Маркова. М.: Наука, 1982.

10. Короткий С. Нейронные сети: алгоритм обратного распространения Электронный ресурс. Режим доступа: http://www.orc.ru/~stasson/n2.zip, свободный.

11. Крамер Г. Математические методы статистики. М.: Мир, 1976. - 648 с.

12. Красноперова М.А. Модели лингвистической поэтики. Ритмика. -JL: Ленинградский университет, 1989. 87 с.

13. Короткий С. Нейронные сети: алгоритм обратного распространения Электронный ресурс. Режим доступа: http://www.orc.ru/~stasson/n2.zip, свободный.

14. Кукушкина О.В., Поликарпов А.А., Хмелёв Д.В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. 2001. - Т. 37. - Вып. 2. - С.96-109.

15. Кульбак С. Теория информации и статистика. М.: Наука, 1967.

16. Марков А.А. Об одном применении статистического метода. // Известия Имп. Акад.наук. серия VI. - Т.Х. - N4. - 1916. - с.239.

17. Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного неизвестного автора. Стилеметриче-ский этюд. // Известия отд. русского языка и словесности Имп. Акад.наук. Т.ХХ. -кн.4. -1915.

18. Олдендерфер М.С., Блашфилд Р.К. Кластерный анализ // В кн.: Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989. -216 с.

19. Поддубный В.В. Максимально правдоподобное полиномиальное сглаживание рядов эмпирических частот //Обработка данных и управление в сложных системах. Вып. 5 /Под ред. проф. А. Ф. Терпугова. Томск: Изд-во Томск, ун-та, 2003. - 2003. - С. 171-182.

20. Поддубный В.В., Шевелев О.Г. Кластеризация объектов по мерам сходства частот событий // Обработка данных и управление в сложных системах: Сборник статей 024 / Под ред. А.Ф. Терпугова. Томск: Изд-во Том. ун-та, 2005. - Вып. 7. -175-185 с.

21. Поддубный В. В., Шевелев О. Г. О мерах расстояния при кластеризации текстов по частотным признакам // Обозрение прикладной и промышленной математики, 2005, Т. 12. Вып. 2. - С. 478.

22. Поддубный В.В., Шевелев О.Г. Кластеризация объектов по частотам событий // IV Всероссийская ФАМ конференция: Тезисы докладов, 25-27 февраля 2005 г. / под ред. к.ф.-м.н. Д.В. Семеновой. Красноярск: Красноярский гос. ун-т, 2005.- С. 67-68.

23. Программа «Худломер» Электронный ресурс. Режим доступа: http://teneta.rinet.ru/hudlomer/, свободный.

24. Прохоров А.В. Маркова цепь // Математический энциклопедический словарь. М.: Советская Энциклопедия, 1988. - С. 336-337.

25. Психолингвистическая экспертная система «ВААЛ». Руководство пользователя, Москва 2002 Электронный ресурс. Режим доступа: http://www.vaal.ru/prog/guide.zip, свободный.

26. Сидоров Ю.В. Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров. Автореф. дис. канд. тех. наук. Петр-ск, 2002. -19 с.

27. Система PolyAnalyst. Описание Электронный ресурс. Режим доступа: http://www.megaputer.ru. свободный.

28. Система TextAnalyst. Описание Электронный ресурс. Режим доступа: http://www.megaputer.com/products/ta/index.php3, свободный.

29. Солганик Г.Я. Стилистика текста. М.: Наука, 2005. - 253 с.

30. Справочник по прикладной статистике / Под ред. Э.Ллойда, У.Ледермана. Том 1. М.: Финансы и статистика, 1989. - 512с.

31. Тютерев В.В., Новосельцев В.Б., Теория нейронных сетей, Томск: Изд. Томского государственного университета, 2000. - 56с.

32. Уоссермен Ф., Нейрокомпьютерная техника. М.: Мир, 1992.

33. Ежов А.А., Шумский С.А. Нейрокомпьютинг и его применения в экономике и бизнесе. М.: МИФИ, 1998. - 222 с.

34. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов. Предисловие А.Т. Фоменко // Фоменко А.Т. Новая хронология Греции: Античность в средневековье. Т. 2. М.: Изд-во МГУ, 1996. - С.168-820.

35. Хмелев Д.В. Классификация и разметка текстов с использованием методов сжатия данных. Краткое введение Электронный ресурс. Режим доступа: http://compression.graphicon.ru/download/articles/classif/intro.html, свободный.

36. Хмелев Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ. Сер.9: Филология. - №2. - 2000. -С. 115-126.

37. Хрулев О. Определение автора по тексту на естественном языке Электронный ресурс. Режим доступа: http://www.socionic.ru/articles/psycholingvistauthor.htm, свободный.

38. Цой Ю.Р., Спицын В.Г. Генетический алгоритм настройки искусственной нейронной сети // Тезисы докладов конференции-конкурса студентов, аспирантов и молодых ученых «Технологии Microsoft в информатике и программировании», Новосибирск, 2004. С. 131-133.

39. Шаров С.А. Частотный словарь Электронный ресурс. Режим доступа: http://www.artint.ru/projects/frqlist.asp, свободный.

40. Шевелев О.Г. Представление набора текстов в реляционной базе данных для целей лингвистического анализа // Вестник Томского государственного университета, 2004, № 284. С. 225-229.

41. Шевелев О.Г., Тютерев В.В. Многослойные персептроны в задаче разрешения спорного авторства текста // Сборник трудов научно-технической конференции «Нейроинформатика-2003», 29-31 января 2003 г., Москва. М.: МИФИ, 2003, 4.2. - С.206-212.

42. Электронная библиотека Максима Мошкова Электронный ресурс. Режим доступа: http://lib.ru, свободный.

43. Электронная библиотека Русский текст Электронный ресурс. Режим доступа: http://www.russiantext.com, свободный.

44. Apte C., Damerau F., Weiss S. Automated Learning of Decision Rules for Text Categorization // ACM Transactions on Information Systems, pp. 233-240, July 1994. http://citeseer.ist.psu.edu/apte94automated.html.

45. Apte С., Damerau F., Weiss S. Text mining with decision rules and decision trees // Proceedings of the Conference on Automated Learning and Discovery, CMU, June, 1998.

46. Ashford T. Computerised Determination of Disputed Authorship: The Cusum Method, 2001 61p.

47. Baayen H., van Halteran H., Neij't A., Tweedie F. An Experiment in Authorship Attribution // Journees internationales d'Analyse statistique des Donnees Textuelles, 2002, vol. 6.

48. Baronchelli A., Loreto V. Data Compression approach to Information Extraction and Classification. arXiv: cond-mat/0403233, 2004.

49. Beil F., Ester M., Xu X. Frequent Term-Based Text Clustering Электронный ресурс. Режим доступа: http://ifsc.ualr.edu/xwxu/publications/KDD02.pdf, свободный.

50. Bell Т.С., Cleary J.G., Witten I.H. Text compression. // Prentice resound, Engle-wood Cliffs, NJ, 1990, pp. 1-26.

51. Benedetto D., Caglioti E., Loreto V. Language Trees and Zipping // Physical Review Letters, vol. 88, No. 4, art. no. 048702, 2002.

52. Burges C.J.C. A Tutorial on Support Vector Machines for Pattern Recognition // Data Mining and Knowledge Discovery, vol. 2, No. 2, 1998, pp. 121-167.

53. Care M. Authorship attribution: a Comparison of three methods Электронный ресурс. Режим доступа: http://www.dcs.shef.ac.uk/teaching/eproj/msc2003/pdf/m2mc.pdf, свободный.

54. Cheeseman P., Kelly J., Self M., Stutz J., Taylor W., Freeman D. AutoClass: A Bayesian classification system // Proc. of 5th Int. Conf. on Machine Learning, 1988, pp. 54-64.

55. Choudhary В., Bhattacharyya P. Text clustering using semantics // Proceedings of the 11th International World Wide Web Conference, WWW2002, Honolulu, Hawaii, USA, 2002, http://www2002.org/CDRQM/poster/79.pdf.

56. Cilibrasi R., Vitanyi P.M.B. Clustering by compression // IEEE Trans. Information Theory, 2005, vol. 51, No. 4, pp. 1523-1545.

57. Cutting D.R., Karger D.R., Pedersen J.O., and Tukey J.W. Scatter/gather: A cluster-based approach to browsing large document collections // 15th Ann Int'l SIGR, 1992, pp. 318-329.

58. Diederich J.J., Kindermann J., Leopold E., Paass G. Authorship attribution with support vector machines // Applied intelligence, 2003, vol. 19, No. 1, pp. 109-123.

59. Dumais S. Т., Piatt J., Heckerman D., Sahami M. Inductive learning algorithms and representations for text categorization. // Proceedings of ACM-CIKM98, Nov. 1998, pp. 148-155.

60. Elman J.L. Finding Structure in Time // Cognitive Science, 1990, Vol. 14, pp. 179-211.

61. Farkas J. Document Classification and Recurrent Neural Networks Электронный ресурс. Режим доступа: http://www.cs.ubc.ca/local/reading/proceedings/cascon95/htm/english/abs/farkas.htm, свободный.

62. Farringdon J.M. Analyzing for Authorship: A Guide to the Cusum Technique, -Cardiff: University of Wales Press, 1996.

63. Fisher D. Knowledge acquisition via incremental conceptual clustering // Machine Learning, 1987, No. 2, pp. 139-172.

64. Frank E., Chui C., Witten I.H. Text categorization using compression models. // Proc Data Compression Conference, edited by J.A. Storer, et al., Snowbird, Utah, March. IEEE Press, Los Alamitos, pp. 555.

65. Goodman J. "Extended Comment on Language Trees and Zipping". arXiv: cond-mat/0202383. 1, 2002.

66. Hardcastle R.A. CUSUM: a credible method for the determination of authorship? // Science & Justice, 1997, No. 37, pp. 129-138.

67. Hersee M.S. Automatic Detection of Plagiarism: An approach Using the QSum Method, University of Sheffield, Department of Computer Science, 2001. - 67p.

68. Holden N., Freitas A.A. Web page classification with an ant colony algorithm // Parallel Problem Solving from Nature PPSN VIII, LNCS 3242, Springer-Verlag, September 2004, pp. 1092-1102.

69. Holmes D.I. The Evolution of Stylometry in Humanities Scholarship // Literary and Linguistic Computing, 1998, vol. 13, No. 3, pp. 111-117.

70. Honkela Т., Pulkki V., Kohonen T. Contextual Relations of Words in Grimm Tales, Analyzed by Self-Organizing Map // Proceedings of ICANN-95, International Conference on Artificial Neural Networks, EC2 et Cie, Paris, 1995, vol. 2, pp. 3-7.

71. Hoorn J., Frank S., Kowalczyk W., Ham F. van der. Neural network identification of poets using letter sequences // Literary and Linguistic Computing, 1999, vol. 14, No. 3, pp. 311-338.

72. Jain A.K., Murty M.N., Flynn P.J. Data Clustering: A Review // ACM Computing Surveys, 1999, vol. 31, No. 3, pp. 264-323.

73. Joachims T. Text categorization with support vector machines: learning with many relevant features // Proceedings of ECML-98, 10th European Conference on Machine Learning, 1998, pp. 137-142.

74. Sammon J.W. Jr. A nonlinear mapping for data structure analysis // IEEE Transactions on Computers, 1969, vol. 18, No. 5, May, pp. 401-409.

75. Khmelev D., Tweedie F. Using Markov Chains for Identification of Writers // Literary and Linguistic Computing, 2001, vol. 16, No. 4, pp.299-307.

76. Kjell B. Authorship attribution of text samples using neural networks and Bayesian classifiers // IEEE International Conference on Systems, Man and Cybernetics, San Antonio, TX, 1994., vol. 2, pp. 1660-1664.

77. Kjell B. Authorship determination using letter pair frequencies with neural network classifiers // Literary and Linguistic Computing, 1994, vol.9, No. 2, pp. 119124.

78. Kjell В., Woods W. A., Frieder O. Information retrieval using letter tuples with neural network and nearest neighbor classifiers // IEEE International Conference on Systems, Man and Cybernetics, Vancouver, ВС, 1995, vol. 2, pp. 1222-1225.

79. Kukushkina O.V., Polikarpov A.A. DicTUM-1, a system for dictionary-text universal manipulations and analysis Электронный ресурс. Режим доступа: http://www.philol.msu.ru/~lex/articles/dictum.htm, свободный.

80. Lin К., Kondadadi R. A word-based soft clustering algorithm for documents Электронный ресурс. Режим доступа: http://www.msci.memphis.edu/~linki/mypaper/CATA01.doc, свободный.

81. Leouski A.V., Croft W.B. An Evaluation of Techniques for Clustering Search Results Электронный ресурс. Режим доступа: http://people.ict.usc.edu/~leuski/publications/papers/ir-76.pdf, свободный.

82. Lowe D., Matthews R. Shakespeare vs. Fletcher: A Stylometric Analysis by Radial Basis Functions //Computers and the Humanities, 1995, No. 29, pp. 449-461.

83. Matthews R., Merriam T. Neural computation in stylometry I: An application to the works of Shakespeare and Fletcher // Literary and Linguistic Computing, 1993, No. 8, pp. 203-209.

84. Mendenhall T. A. A mechanical solution to a literary problem // Popular Science Monthly, 1901, No. 60, pp. 97-105.

85. Mendenhall T. A. The characteristic curves of composition // Science, 1887, No. 11, pp. 237-249.

86. Merriam Т., Matthews R. Neural computation in stylometry II: An application to the works of Shakespeare and Marlowe // Literary and Linguistic Computing, 1994, No. 9, pp. 1-6.

87. Moore A. Statistical data mining tutorials Электронный ресурс. Режим доступа: http://www-2.cs.cmu.edu/awm/tutorials/, свободный.

88. Morton A.Q. The Authorship of Greek Prose // Journal of the Royal Statistical Society (A), 1965, No. 128, pp. 169-233.

89. Mosteller F., Wallace D. L. Applied Bayesian and Classical Inference: The Case of the Federalist Papers // Addison-Wesley, 1964.

90. Oakes M. Ant colony optimization for stylometry: The federalist papers // Proceedings of the 5th International Conference on Recent Advances in Soft Computing, Nottingham Trent, pp. 86-91.

91. Pantel P., Lin D. Efficiently Clustering Documents with Committees Электронный ресурс. Режим доступа: http://citeseer.ist.psu.edu/pantel02efficiently.html, свободный.

92. Patton J.M., Can F.A. Stylometric Analysis of Yashar Kemal's "Ince Memed Tetralogy" Электронный ресурс. Режим доступа: http://www.users.muohio.edu/canf/papers/CHUM355Apr0504.pdf, свободный.

93. Peng R.D., Hengartner N.W. Quantitative analysis of literary styles // The American Statistician, 2002, vol. 56, No. 3, pp. 175-185.

94. Quinlan R. C4.5: Programs for Machine Learning // San Mateo, CA: Morgan Kaufmann, 1993.

95. Reuters 21578 corpus Электронный ресурс. Режим доступа: http://www.daviddlewis.com/resources/testcollections/reuters21578/, свободный.

96. Riboni D. Feature Selection for Web Page Classification // EURASIA-ICT 2002 Proceedings of the Workshop, Editor: A Min Tjoa, Austrian Computer Society, pp. 473-478.

97. Rocchio J.J. Jr. Relevance feedback in information retrieval. // The SMART Retrieval System: Experiments in Automatic Document Processing, Prentice Hall, 1971, pp. 313-323.

98. Stamatatos E., Fakotakis N., Kokkinakis G. Computer-Based Authorship Attribution without Lexical Measures // Computers and the Humanities, 2001, No. 35, pp. 193-214.

99. Steinbach M., Karypis G., and Kumar V. A comparison of document clustering techniques // KDD. Workshop on Text Mining, Boston, MA, August 2000, http://www.cs.cmu.edu/~dunja/KDDpapers/SteinbachIR.pdf.

100. Tantrum J., Murua A., Stuetzle W. Hierarchical Model-Based Clustering of Large Datasets Through Fractionation and Refractionation. Электронный ресурс. Режим доступа: http://bayes.stat.washington.edu/www/research/reports/2002/tr407.pdf, свободный.

101. Teahan W.J., Wen Y., McNab R., Witten I.H. A Compression-based Algorithm for Chinese Word Segmentation // Computational Linguistics, 2000, vol. 26, No. 3, pp. 375-393.

102. Teahan W.J., Harper D.J. Using compression-based language models for text categorization // J. Callan, B. Croft and J. Lafferty, editors, Workshop on Language Modeling and Information Retrieval, ARDA, Carnegie Mellon University, 2001, pp. 83-88.

103. Thaper N. Using compression for source based classification of text. Master's thesis, M.I.T., February 2001.

104. TREC: Text REtrieval Conference Электронный ресурс. Режим доступа: http://trec.nist.gov, свободный.

105. Tsuboi Y. Authorship Identification for Heterogeneous Documents. Master's thesis, Nara Institute of Science and Technology, 2002.

106. Tweedie F.J., Singh S., Holmes D.I. Neural Network Applications in Stylome-try: The Federalist Paper// Computers and the Humanities, 1996, No. 30 pp. 1-10.

107. Ukkonen, E. On-line construction of suffix trees // Algorithmica, vol. 14, No. 3, September 1995, pp. 249-260.

108. Zamir О. and Etzioni О. Web document clustering: A feasibility demonstration // Proceedings of the 21th International ACM SIGIR Conference, 1998, pp. 46-54.

109. Zhao Y., Zobel J. Effective and Scalable Authorship Attribution Using Function Words. Электронный ресурс. Режим доступа: http://www.cs.rmit.edu.au/~yizhao/zhaozobel.pdf, свободный.

110. Zhong S., Gosh J. Generative Model-based Document Clustering: A Comparative Study Электронный ресурс. Режим доступа: http://www.cse.fau.edu/~zhong/papers/comptext2.pdf, свободный.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат технических наук Шевелев, Олег Геннадьевич

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Методика и программный комплекс для идентификации автора неизвестного текста2010 год, кандидат технических наук Романов, Александр Сергеевич

Особенности организации текста газетной заметки2007 год, кандидат филологических наук Чжао Вэньцзе

Введение диссертации (часть автореферата) на тему «Разработка и исследование алгоритмов сравнения стилей текстовых произведений»

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Исследование и разработка методов и программных средств классификации текстовых документов2013 год, кандидат технических наук Гулин, Владимир Владимирович

Лексика разговорного употребления в языке газеты2009 год, кандидат филологических наук Шайдорова, Юлия Александровна

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Шевелев, Олег Геннадьевич

Список литературы диссертационного исследования кандидат технических наук Шевелев, Олег Геннадьевич, 2006 год