Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик

Суровцова, Татьяна Геннадьевна

Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Суровцова, Татьяна Геннадьевна

Суровцова, Татьяна Геннадьевна
кандидат технических наук
2008

Специальность ВАК РФ05.13.18

Количество страниц 134

Суровцова, Татьяна Геннадьевна. Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Петрозаводск. 2008. 134 с.

Оглавление диссертации кандидат технических наук Суровцова, Татьяна Геннадьевна

ВВЕДЕНИЕ.

ГЛАВА 1. МАТЕМАТИЧЕСКИЕ МЕТОДЫ ДЛЯ ВЫДЕЛЕНИЯ ГРУПП ТЕКСТОВ.

§ 1 Использование кластерного анализа.

1.1 Метод кластеризаърш.

1.2 Метод иерархической кластеризации.

1.3 Классификация на основе полученных кластеров.

§2 Методы для исследования переходов между составляющими единицами текста.

2.1 Метод "сильного графа".

2.2 Метод подсчета отличий между матрицами переходов.

§3 Методы, основанные на проверке статистических гипотез.

3.1 Общее распределение частей речи.

3.2 Средняя длина слова в буквах, вычисляемая на основании выборок размерол1 в 500 слов.

3.3 Общее распределение длины слова.

3.4 Средняя длина предложения в словах, вычисляелшя на основании выборок размером в 30 предложений.

3.5 Общее распределение длины предложения.

3.6 Лексический спектр текста на уровне словаря.

3.7 Лексический спектр текста на уровне текста.

3.8 Индекс разнообразия лексики.

§4 Метод, основанный на индуктивном построении классификаторов.

4.1 Описание метода.

§5 Сравнение методов и их совместное применение.

5.1 Комитеты классификаторов.

5.2 Методика построения статистического критерия на основе классификатора.

Введение диссертации (часть автореферата) на тему «Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик»

Актуальность темы

Исследование языка в первую очередь вызвано интересом к естественному интеллекту человека [43, 49], поэтому такая форма существования языка как письменный текст, также является объектом пристального внимания. Наблюдается устойчивый интерес к работам, проводимым в этой области.

Задачи по автоматической обработке текста, включают в себя задачи информационного поиска, связанные с нахождением информации в электронных базах знаний, автоматическим извлечением данных и фактов по заданной тематике, автоматическим реферированием электронных документов. А также другие проблемы обработки естественного языка с использованием вычислительной техники, а именно понимание естественного языка, лингвистическое обеспечение информационных систем разных типов, машинный перевод.

При автоматической обработке текстов среди других задач возникают две близкие, а именно классификации и кластеризации текстов. Первая состоит в том, чтобы отнести текст к определенной категории. Вторая — разбить набор текстов на группы, близкие в некотором смысле.

Общая постановка задачи классификации может быть записана следующим образом. Задано множество документов D = {dvd1.d^ и множество категории С = {с„с2.с|с|}. Задана неизвестная функция F, которая определяет принадлежность документа определенной категории F:D х С —> {0,1}. Необходимо найти функцию F', максимально близкую к F, которая и будет классификатором.

Построение классификатора F' проводится на подмножестве документов D, которое называют обучающей выборкой, проверяется с использованием подмножества документов D, которое называют тестовой выборкой. Эффективность построенного классификатора можно оценить по количеству полученных на тестовой выборке совпадений.

При кластеризации текстов происходит попытка выяснить естественное выделение в группах текстов определенных групп с использованием соответствующих алгоритмов и визуализации. Для каждого текста в любом случае строится набор признаков.

Задача автоматической классификации и кластеризации текстов имеет большое практическое значение. Соответствующие процедуры применяются при обработке информационных потоков, таких как электронная почта и новости, рекламные объявления, создания каталогов в Интернете, при автоматическом реферировании и аннотировании.

Тесно связана с этим задача атрибуции текстов. Атрибуция (от лат. attributio — приписывание) — определение атрибутов. Существуют методы позволяющие проводить атрибуцию текста. А именно отнесение его к определенному жанру, стилю, времени написания и т. п. Но вероятно наиболее важной является задача атрибуции авторства произведения. Для нее могут быть использованы любые методы классификации и кластеризации текстов, но существуют и значительные отличия при проведении этих процедур. В первую очередь это связано с определением авторства литературных произведений, когда сомнению подвергается принадлежность автору известного произведения, или происходит попытка восстановить историческую справедливость, вернув миру имя неизвестного писателя.

Автоматическое установление авторства письменных текстов, помимо литературоведения, применяются в сфере безопасности и при защите авторских прав, уголовном и гражданском делопроизводстве, криминалистике. Задача достаточно актуальна, так как все больше текстов приходится анализировать в электронном виде, лишенном, тех характерных атрибутов, которые отличают тексты, написанные от руки. Например:

• послано электронное письмо от имени человека, который отказывается от послания, сказав, что письмо было написано с его рабочего места во время его отсутствия;

• сообщения в блогах пишутся одним автором под несколькими вымышленными именами;

• при подготовке электронных изданий было проведено изменение содержания.

С такими ситуациями приходится сталкиваться все чаще, так как доступ к рабочему месту за компьютером часто не защищен. До сих пор при расследовании таких случаев использовали такие методы, как снятие показаний, анализ почерка, отпечатков пальцев, ритм печатания текста на клавиатуре и другие. Сейчас ищут возможность извлечь информацию об авторе текста из самого текста.

Особую важность имеет работа по атрибуции (установлению авторства) анонимного или псевдонимного литературного произведения, так как это связано с этическими проблемами.

В общем случае в атрибуции литературного произведения может быть выделено два этапа:

• этап формирования гипотезы;

• этап проверки гипотезы и интерпретации результатов.

Этап формирования гипотезы выполняется при помощи традиционных филологических методов атрибуции с учетом как субъективных, так и объективных данных. На этом этапе может быть сформулирована гипотеза о принадлежности текста Mi писателю А. Может выдвигаться гипотеза о времени написания текста Mi на основе его языковых и стилистических связей с текстами М2, М3,. Мп писателя А, датировка которых известна, и т. п.

Проверка гипотезы выполняется с учетом как субъективных, так и объективных данных, а именно наличия свидетельств в документах архивов, письмах, анализе стиля автора и других. Атрибуция считается выполненной, когда имеется совпадение биографических, идеологических и стилистических данных произведения предполагаемого автора с полученными материалами.

Этап проверки гипотезы и интерпретации результатов может выполняться и методами прикладной лингвистики с использованием процедур статистико-вероятностного анализа, теории классификации, теории распознавания образов и других математических методов. Но при этом надо понимать, что статистико-вероятностные методы, применяемые при атрибуции, используются только для проверки гипотезы и никакой самостоятельной роли не играют.

Таким образом, положительное решение по вопросу атрибуции текста может быть принято только в случае совпадения результатов филологического и математико-статистического анализа. Этот подход используется в данной работе при рассмотрении результатов тех или иных методов при проведении атрибуции текстов.

Возможность применения математических методов при атрибуции авторства обеспечивает принятое в стилистике понятие стиля, которое исследовалось в частности академиком В. В. Виноградовым, по его мнению "стиль писателя должен изучаться как единая, внутренне целостная система функционально согласованных средств словесного выражения", в том числе и с использованием математических методов [12, 13, 14].

История и анализ современных методов

Истоки изучения текстов с использованием математики можно увидеть еще в занятиях кабалистов, которые видели скрытый смысл письменных знаков, если их отобразить цифрами.

Первым источником, в котором упоминается использование численных методов при исследовании литературных произведения, считается письмо шотландского математика Огастеса Моргана (Augustus De Morgan) написанное в 1851, в котором он рассказывает о своих вычислительных опытах, проводимых им при изучении Нового Завета, и делает предположение о том, что "один человек напишет о разных вещах более похоже, чем разные люди об одном и том же". Он предложил сравнить среднее число букв в греческом тексте "Послания к Евреям" (Epistle to the Hebrews) со средним значением в других посланиях Павла [79].

Таким образом, в то время основной интерес лежал в области определения авторства книг Ветхого и Нового завета, изучения произведений авторов школы Платона, Аристотеля, Гомера и Шекспира, и многое другое. Сравнивались легко вычисляемые характеристики, такие как длины слов, предложений, предпочтения в использовании служебных слов.

В восьмидесятые годы XIX века было предпринято множество попыток описания особенностей литературного стиля с помощью таблиц и графиков, самой заметной стало произведение американского физика Томаса Мандельхолл "Характеристические кривые композиции", в котором он рассматривал распределения длины слов и частоты букв в текстах Бэкона, Шекспира, Марлоу [85].

В опубликованной в 1944 году работе шотландского статистика Уд-ни Йеля "Статистическое исследование литературного словарного запаса" рассматривалось число встречаемости существительных как признак, по которому можно судить об авторстве произведений [99].

В качестве основных работ, которые были посвящены стилеметрии (stylometry), в России в докомпьютерный период для решения задач атрибуции, можно привести исследования начала XX века Николая Александровича Морозова (1854 -1946). В статье, вышедшей в 1915 году и названной "Лингвистические спектры", Н. А. Морозов характеризует свой метод как "средство для отличения плагиата от истинных произведений того или иного известного автора" [38]. Идею метода Морозов заимствует у немецких исследователей XIX века В. Диттербергера и К. Риттера, которые изучали спорные тексты (среди них тексты, приписываемые Платону, Гёте и др.) методами статистического анализа употребительности -отдельных речевых форм, слов, выражений, фразеологических оборотов и синонимов. Причем в качестве счетных единиц выбирались наиболее подвижные и легко заменяющиеся синонимами элементы языка. Интересна реакция на эту статью крупнейшего отечественного ученого А. А. Маркова, который, ссылаясь на свой опыт, изучения текста "Евгения J Онегина", а также на результаты повторенных им исследований тех же текстов, что служили материалом анализа для Н. А. Морозова, показал, что выводы последнего не достоверны, так как были получены на текстах недостаточного объема [36].

В русской и советской литературе много вопросов связанных с атрибуцией текстов. Например, древнерусские тексты, летописи, которые создавались в Древней Руси анонимными и псевдонимными летописцами.

30-е годы XIX века стали годами "восстания псевдонимов" из-за гонений связанных с восстанием декабристов, оставили миру целый ряд произведений с неизвестным и приписываемым авторством.

В конце XIX века русская публицистика также очень часто была анонимна или подписывалась псевдонимами. Тогда же появились первые "фабрики по производству романов", явление широко распространенное и в наши дни. В современной литературе наиболее известным вопросом остается авторство "Тихого Дона".

Большинство современных методов определения авторства, так или иначе, основаны на анализе лингвостатистических (числовых) характеристик, вычисляемых по тексту.

Можно выделить следующие характеристики, которые могут быть получены для письменного текста и доступны для последующего анализа:

1. легко вычисляемые по тексту: длина предложений и слов, средняя длина предложений и слов;

2. однородность текста (распределение по тексту составляющих единиц текста);

3. грамматические конструкции языка;

4. морфологические конструкции языка;

5. синтаксические конструкции языка;

6. лексика (богатство лексики, частотные словари, наличие определенных слов);

7. переходы между составляющими единицами текста;

8. анализ дополнительных признаков текста (сокращений, пунктуации, "смайликов", ошибок).

Полученные лингвостатистические характеристики подвергаются анализу с использованием различных математических методов, среди которых можно выделить следующие:

1. статистические методы [6, 11, 15, 17, 28, 51, 66, 91];

2. изучение переходов между составляющими единицами текста [9, 65, 67];

3. арифметические методы [63, 92];

4. методы распознавания образов и искусственного интеллекта [50, 87, 90].

Несмотря на большое количество работ посвященных методам автоматического определения авторства, к ним обнаруживается достаточно настороженное отношение, как со стороны математиков [36], так и филологов [24, 94], что не остается без внимания специалистов в области атрибуции, которые рассматривают критику как требование к систематизации уже накопленных материалов и создания базы для проведения дальнейших исследований [78, 93].

Постановка задачи и объект исследования

Изучение структуры литературного текста с использованием различных математических методов имеет богатую историю, а появление вычислительных машин расширило возможности проведения различных экспериментов.

Проведение подобных исследований предполагает наличие литературного материала, отобранного и подготовленного специалистами. Многие используемые электронные корпуса текстов обычно ориентированы на тексты XX века современного русского языка, есть корпуса, посвященные текстам средневековой Руси. В данном исследовании использован корпус, в основе которого лежат тексты 60-70-х гг. XIX века, а именно публицистические статьи из журналов "Время", "Эпоха", "Современник", "Гражданин" и других в оригинальной орфографии дореволюционной России.

Работа по созданию и поддержке корпуса ведется в Петрозаводском государственном университете с 1995 года. Информационная поддержка осуществляется с использованием программного комплекса "Статистические методы анализа литературного текста" (ПК "CMAJIT"). Проект был поддержан грантом РГНФ № 02-04-12015в, № 05-04-12418в, руководитель Рогов А. А. Адрес в Интернет, посвященный ресурсу: http://smalt.karelia.ru.

Информационная система имеет модульную структуру, для своей работы использует архитектуру клиент-сервер. В настоящее время реализованы модули, которые позволяют проводить наполнение базы информацией о литературных произведениях, проводить морфологический и синтаксический разбор произведения, осуществлять хранение и обработку полученной информации.

Было предложено разработать информационно-аналитическую систему, расширяющую возможности ПК "СМАЛТ", которая, опираясь на единый тестовый материал, позволит сравнить имеющиеся методы по классификации и кластеризации текстов, предложить новые, дать у. рекомендации по их применению.

В первую очередь нас интересовали методы, которые позволяют „ проводить атрибуцию текстов и работать с текстами небольшого объема, так как, несмотря на большое количество исследований в этой области, , существует потребность в надежных и обоснованных методах определения авторства [78].

Цель работы

Целью данной работы является разработка информационно-аналитической системы для анализа лингвостатистических характеристик литературных произведений, расширяющей возможности программного комплекса "Статистические методы анализа литературного текста" (ПК "СМАЛТ") [44].

Информационно-аналитическая система должна включать методы, позволяющие проводить классификацию и кластеризацию текстов и групп текстов, а также рассчитывать необходимые числовые характеристики, что позволяет сравнивать методы на едином тестовом материале.

Для достижения поставленной цели в ходе исследования были решены следующие задачи:

1. Проанализированы существующие методики для классификации и кластеризации текстов и групп текстов и предложена новая. Проведена их программная реализация и апробация на имеющемся материале. Созданы рекомендации по применению.

2. Спроектирована и разработана информационно-аналитическая система для анализа лингвостатистических характеристик литературных произведений.

3. Проведены исследования синтаксической структуры произведений.

4. Проведена атрибуция Ф. М. Достоевскому ряда произведений из раздела Dubia1.

5. Рассмотрены возможности комплексной оценки для результатов работы различных методов.

6. Исследованы возможности для описания морфологического и синтаксического разбора текстов с использованием языка XML.

При решении указанных задач использовались методы теории вероятностей и математической статистики, теории распознавания образов, прикладного статистического анализа, теории графов, теории баз данных.

Научная новизна

1. Обоснована разработка и реализована информационно-аналитическая система, входящая в ПК "CMAJIT", предназначенная для анализа лингвостатистических характеристик литературных произведений, которая позволяет проводить классификацию и кластеризацию текстов на основе рассчитываемых характеристик. Дает возможность сравнить

1 Dubia (лат. "сомнительное") — произведения, предположительно приписываемые тому или иному автору. методы на едином тестовом материале, выявить наиболее эффективные, комплексно учитывать результат работы нескольких методов.

2. Проведены исследования синтаксической структуры текста с использованием методов кластерного и иерархического кластерного анализа, а также метода "сильного графа". Даны рекомендации по использованию.

3. Предложено использование метода, основанного на индуктивном построении классификаторов, для классификации текстов и групп текстов, и методика построения статистического критерия на основе классификатора. Проведена их апробация при проведении атрибуции Ф. М. Достоевскому ряда произведений, относящихся к разделу Dubia.

4. Разработана спецификация на основе языка XML для описания морфологического и синтаксического разбора текста в соответствии с грамматикой русского языка.

Объем и структура диссертации

Диссертация состоит из введения, трех глав, заключения и списка литературы, содержащего 99 наименований. Общий объем работы, изложенный на 134 страницах машинописного текста, включает 18 страниц приложения, 16 таблиц и 13 рисунков.

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Суровцова, Татьяна Геннадьевна

Основные выводы и рекомендации

В заключении сформулируем основные результаты работы:

1. Разработана информационно-аналитическая система для анализа лингвостатистических характеристик литературных произведений, входящая в ПК "СМАЛТ". В нее включены методы, позволяющие проводить классификацию и кластеризацию текстов и групп текстов, а также проводить расчет лингвостатистических признаков для исследуемых произведений. Сравнивать результаты работы на едином текстовом материале.

2. Предложено использование метода, основанного на индуктивном построении классификаторов, для классификации текстов и групп текстов. Апробация метода при атрибуции авторства произведений показала его эффективность при работе с короткими текстами, легкую интерпретируемость результатов, а также выделение наиболее информативных признаков.

3. Предложен способ построения статистического критерия на основе классификатора. Использование этой методики позволило при проверке гипотезы об авторстве произведения учесть влияние всех рассматриваемых лингвостатистических характеристик, а не отдельных, как это происходит при обычной процедуре проверки статистических гипотез.

4. Предложена спецификация на основе языка XML для описания морфологических и синтаксических разборов текстов, которая может быть использована для хранения разборов в виде "плоских" файлов.

5. При использовании методов кластерного и иерархического кластерного анализа выявлено влияние размера текста на выбранные для анализа характеристики, рекомендовано анализировать тексты разной длины отдельно.

6. Применение метода "сильного графа" не выявило возможности устойчивой зависимости получаемых результатов от значений параметров аир. При выборе значения а надо определять его в зависимости от длины рассматриваемого текста.

7. Использование методов, основанных на проверке статистических гипотез, показало необходимость использования дополнительных методов анализа, так как рассмотрение каждой лингвостатистической характеристики выполняется независимо.

Данное исследование может быть продолжено в дальнейшем, анализом новых методов, тестированием их на едином материале, выявлением существующих зависимостей между различными методами. Выявление наиболее перспективных с точки зрения классификации текстов и групп текстов. Информационно-аналитическая система может быть использована для проведения филологических исследований стиля писателя.

5.5 Заключение

Предложенный метод классификации текстов имеет некоторые преимущества перед другими широко используемыми в области атрибуции литературных текстов подходами, так как использование правил позволяет исследовать авторский стиль, они достаточно легко поддаются интерпретации.

При этом происходит выделение множества наиболее информативных признаков с точки зрения классификации текстов. Этот процесс можно сравнить с выделением наиболее значимых особенностей текста читателем литературного произведения при вынесении суждений об его авторстве и стиле, и т. п., происходящем в большинстве случаев неосознанно.

Были сделаны следующие выводы о рассматриваемых характеристиках:

• для построения классификатора из рассмотренных признаков информативными можно признать следующие восемь: 6, 7, 8, 14, 15, 16, 17, 20; из них можно выделить признаки 7, 8, 15, 16, как самые показательные;

• для признаков 9, 10, 11, 12, 18 различий в распределении классового признака не было обнаружено, поэтому их можно исключить из дальнейшего рассмотрения.

При построении и проверке гипотезы с использованием имеющего классификатора основным преимуществом является использование всех имеющихся лингвостатистических характеристик в одном критерии. Важно и то, что имеется возможность получить оценку мощности соответствующего критерия. Эксперименты показали, что предложенный подход работоспособен даже в случае коротких литературных текстов, когда применение других методик малооправдано.

Заключение к третьей главе

В третьей главе был рассмотрен опыт применения методов, описанных в главе 1, с использованием информационно-аналитической системы для анализа лингвостатистических характеристик литературных произведений, см. главу 2.

Представлены полученные результаты при использовании методов кластерного анализа и переходов между составляющими единицами текста для анализа синтаксической структуры произведения.

Методы, основанные на проверке гипотез, и методы, использующие индуктивное построение классификатора, были применены для проверки гипотезы об авторстве Ф. М. Достоевскому ряда произведений, входящих в раздел Dubia.

По всем использованным методам даны рекомендации по использованию, см. соответствующие параграфы. Полученные результаты переданы специалистам, занимающимся творчеством Ф. М. Достоевского. Планируется продолжить проверку методов на более обширной базе произведений.

Список литературы диссертационного исследования кандидат технических наук Суровцова, Татьяна Геннадьевна, 2008 год

1. Адамов, С. Ю. Информатика в статистике: Словарь-справочник / С.Ю.Адамов, С.А.Айвазян. М. : Финансы и статистика, 1994. -208 с.

2. Айвазян, С. А. Прикладная статистика и основы эконометрики / С. А. Айвазян, В. С. Мхитарян. -М. : ЮНИТИ, 1998. 1022 с.

3. Алексеев, А. А. "Текстолог-квантификатор" и индивидуально-авторский стиль / А. А. Алексеев // Русская литература. 1995. - № 4. — С. 172-175.

4. Афифи, А. Статистический анализ: Подход с использованием ЭВМ / А. Афифи, С. Эйзен. М. : Мир, 1982. - 488 с.

5. Балакин, А. Ю. В плену "холодных чисел" / А. Ю. Балакин // Русская литература. 2003. - № 2. - С. 208-214.

6. Батов, В. И. Существует ли формула авторства? / В. И. Батов // Число и мысль. -М. : Знание, 1984. Вып. 7.-160 с.

7. Болыиев, JI. Н. Таблицы математической статистики / JI. Н. Болынев, Н. В. Смирнов. -М. : Наука, 1983. -415 с.

8. Боровиков, В. П. Statistica — Статистический анализ и обработка данных в среде Windows / В. П. Боровиков, И. П. Боровиков. М. : ИИД "Филин", 1998.-592 с.

9. Ю.Воронина, И. Е. Компьютерное моделирование лингвистических объектов / И. Е. Воронина. — Воронеж : Издательско-полиграфический центр Воронежского государственного университета, 2007. 177 с.

10. П.Вашак, П. Длина слова и длина предложения в текстах одного автора / П. Вашак, под ред. Б. Н. Головина // Вопросы статистической стилистики. -Киев, 1974.

11. Виноградов, В. В. Проблема авторства и теория стилей / В. В. Виноградов. М. : Государственное издательство художественной литературы, 1961.-613 с.

12. З.Виноградов, В. В. Сюжет и стиль / В. В. Виноградов. Л. : Издательство академии наук СССР, - 1963. - 190 с.

13. Н.Виноградов, В. В. Избранные труды. Язык и стиль русских писателей: от Гоголя до Ахматовой / В. В. Виноградов, отв. ред. А. П. Чудаков. -М. : Наука, 2003.-390 с.

14. В поисках потерянного автора: Этюды атрибуции / М. А. Марусенко и др.. СПб. : Филологический ф-т СПбГУ, 2001. - 216 с.

15. Голицын, Г. А. Информация — Логика — Поэзия // Число и мысль. -М.: Знание, 1984. Вып. 7. - 160 с.

16. Головин, Б. Н. Язык и статистика / Б. Н. Головин. М., 1971. - 192 с.

17. Дейт, К. Дж. Введение в системы баз данных / К. Дж. Дейт. -К.,М.,СПб. : Издательский дом "Вильяме", 2000. 848 с.

18. Дон, Ч. XQuery: язык запросов XML / Ч. Дон // Открытые системы. -2003.-№ 1.-С. 61-72.

19. Дюк, В. А. Компьютерная психодиагностика / В. А. Дюк. СПб. : Братство, 1994. — 364 с.

20. Дюран, Б. Кластерный анализ / Б. Дюран, П. Оделл. М. :Статистика, 1977.-128 с.

21. Кормилов, С. И. Математика на службе филологии / С. И. Кормилов // Вестник Московского Университета Сер. 9. Филология. — 2003. — № 5. — с. 223-231.

22. Милов, Л. В. От Нестора до Фонвизина. Новые методы определения авторства / Л. В. Милов и др.. М. : Издательская группа «Прогресс», 1994.-446 с.

23. Моль, А. Теория информации и эстетическое восприятие / А. Моль. -М. : Мир, 1966.-350 с.

24. Моль, А. Искусство и ЭВМ / А. Моль, под ред. Ф. Я. Фридмана. // Искусство и ЭВМ. -М. : Мир, 1975. 557 с.

25. Наумов, В. В. Лингвистическая идентификация личности /

26. B. В. Наумов. -М. : КомКнига, 2006.-240 с.

27. Орлов, Ю. К. Невидимая гармония / Ю. К. Орлов // Число и мысль. — М.: Знание, 1980. Вып. 3.-192 с.

28. Корбетт, Г. Г. Компьютерная лингвистика и типология / Г. Г. Корбетт // Вестник Московского Университета Сер. 9. Филология. 1997. - № 2.1. C. 122-140.

29. Лизоркин, Д. А. Язык запросов и совокупности XML-документов, соединенных при помощи ссылок языка XLink / Д. А. Лизоркин // Программирование. 2005. -№ 3. - С. 33-58.

30. Мартыненко, Г. Я. Основы стилеметрии / Г. Я. Мартыненко. Л. : Изд-во ЛГУ, 1988.-176 с.

31. Марков, А. А. Об одном применении статистического метода / А. А. Марков // Известия Императорской академии наук Сер. 6.-1916. -№4. с. 239-242.

32. Марусенко, М. А. Атрибуция анонимных и псевдоанонимных литературных произведений методами распознавания образов / М. А. Марусенко. Л. : Изд-во ЛГУ, 1990. - 168 с.

33. Москин, Н. Д. Теоретико-графовые модели фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация автореф. дис.канд. тех. наук : 05.13.18 / Москин Николай Дмитриевич. Петрозаводск, 2006. — 23 с.

34. Пиотровский, Р. Г. Математическая лингвистика / Р. Г. Пиотровский, К. Б. Бектаев, А. А. Пиотровская. М. : Высшая школа, 1977. - 383 с.41 .Питц-Моултис, Н. XML / Н. Питц-Моултис, Ч. Кирк. СПб. : БХВ-Петербург, 2000. - 736 с.

35. Пирс, Дж. Символы, сигналы, шумы / Дж. Пирс. М. : Мир, 1967. -332 с.

36. Потапова, Р. К. Речь: коммуникация, информация, кибернетика / Р. К. Потапова. М. : Радио и связь. - 1997. - 528 с.

37. Розенталь, Д. Э. Современный русский язык / Д. Э. Розенталь, И. Б. Голуб, М. А. Теленкова. М. : Айрис-пресс, 2002. - 448 с.

38. Рябцева, Н. К. Язык и естественный интеллект / Н. К. Рябцева. М. : Academia, 2005. - 640 с.

39. Севбо, И. П. Графические представления синтаксических структур и стилистическая диагностика / И. П. Севбо. Киев : Наук, думка, 1981. — 192 с.

40. Сидоров, Ю. В. Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров : автореф. дис.канд. тех. наук : 05.13.18 / Сидоров Юрий Владимирович. Петрозаводск, 2002. -21 с.

41. Синелева, А. В. Атрибуция «Романа с кокаином»: лингвостатистическое исследование / А. В. Синелева. Нижний Новгород : Изд-во Нижегородского госуниверситета им. Н.И. Лобачевского, 2000. - 92 с.

42. Степанов, А. А. Эвристика стиля атрибуция авторства / А. А. Степанов // Литературная учеба. - 1998. - № 2. - С. 155-160.

43. Суровцова, Т. Г. Статистический анализ литературных текстов / Т. Г. Суровцова // Языки науки — языки искусства: сборник тезисов XI международной конференции серии "Нелинейный мир", Пущино, 3 -7 июня 2006. Пущино, 2006. - С. 89.

44. Суровцова, Т. Г. Экспертная система для выявления скрытых количественных характеристик литературных произведений / Т. Г. Суровцова // Информационные технологии моделирования и управления. — 2007. — № 6(40). С. 650-655.

45. Суровцова, Т. Г. Использование экспертной системы для выявления скрытых количественных характеристик литературных произведений / Т. Г. Суровцова // Системы управления и информационные технологии.- 2007. № 3.3(29). - С. 392-396.

46. Уотермен, Д. Руководство по экспертным системам / Д. Уотермен. М. : Мир, 1989.-388 с.

47. Фоменко, В. П. Авторский инвариант русских литературных текстов /

48. B. П. Фоменко, Т. Г. Фоменко // Новая хронология Греции: Античность в средневековье. -М. : Изд-во МГУ, 1996. Т. 2. - С. 768-820.

49. Фрумкина, Р. М. Психолингвистика / Р. М. Фрумкина. М. : Издательский центр "Академия", 2001. - 320 с.

50. Фукс, В. По всем правилам искусства / В. Фукс, под ред. Ф. Я. Фридмана // Искусство и ЭВМ. М. : Мир, 1975. - 557 с.

51. Хетсо, Г. Принадлежность Достоевскому: К вопросу об атрибуции Ф. М. Достоевскому анонимных статей в журналах Время и Эпоха / Г. Хетсо. Oslo : Solum Forlag A.S., 1986. - 82 с.

52. Хмелёв, Д. В. Распознавание автора текста с использованием цепей А. А. Маркова / Д. В. Хмелёв // Вестник Московского университета. Сер. 9. Филология. -2000. -№2. -С. 115-126.

53. Хомский, А. Н. Язык и проблемы знания / А. Н. Хомский // Вестник МГУ.- 1995.-№4.-С. 130-157.

54. Хомский, А. Н. Язык и проблемы знания / А. Н. Хомский // Вестник МГУ. 1995. -№ 6. -С. 110-134.

55. Хомский, А. Н. Язык и проблемы знания / А. Н. Хомский // Вестник МГУ.-1996.-№2.-С. 103-121.

56. Чистяков, С. П. Применение метода структурной минимизации эмпирического риска при индуктивном построении баз знаний /

57. C. П. Чистяков // Труды ИПМИ КарНЦ РАН. 2002. - Вып. 3. - С. 213225.

58. Чернецкий, В. И. Математическое моделирование стохастических систем / В. И. Чернецкий. — Петрозаводск: Изд-во ПетрГУ, 1994. -488 с.

59. Экспертные системы. Принципы работы и примеры. — М. : Радио и связь, 1987.-224 с.

60. Berka, P. G. Automated Knowledge Acquisition for PROSPECTOR--like Expert Systems / P. G. Berka, I. A. Ivanek // Proceedings of ECML'94. -1994.-P. 339-342.

61. Chistiakov, S. P. On One Approach to the Authorship Attribution of Literary Works / S. P. Chistiakov, T. G. Surovtsova // Proceedings of the AMICT'2007, Petrozavodsk, 21-23 August 2007. Petrozavodsk : PetrSU Press, 2008.-C. 215-224.

62. CRI: Collaborative Research: Planning Proposal: Community Resources for Research in Automated Authorship Attribution Электронный ресурс. -Режим доступа: http://www.stat.rutgers.edu/~madigan/AUTHORID/cri-proposal-08-22b-04-main.pdf, свободный.

63. De Morgan, S. Е. Memoir of Augustus de Morgan by his Wife Sophia Elizabeth de Morgan With Selections From His Letters / S. E. De Morgan. -Elibron Classics, 2005. 464 p.

64. The DOT Language Электронный ресурс. Режим доступа: http://www.graphviz.org/doc/info/lang.html, свободный.

65. Duda, R. О. Model Design in the Prospector Consultant System for Mineral Exploration / R. O. Duda, J. E. Gashing // Expert system in the Micro Electronic Age. UK : Edinburg University Press, 1979. - P. 153-167.

66. Feuerstein, S. Oracle PL/SQL Programming / S. Feuerstein, B. Pribyl. USA : O'Reilly, 1997.- 1024 p.

67. Feuerstein, S. Oracle Built-in Packages / S. Feuerstein, C. Dye, J. Beresniewicz. USA : O'Reilly, 1998. - 952 p.

68. Kerber, R. Chimerge: Diskretization of numerical attributes / R. Kerber // Proceedings of the tenth National Conference on Artificial Intelligence, MIT Press, 1992. P. 123-128.

69. Mendenhall, T. The characteristic curves of composition / T. Mendenhall // Science. 1887. - Vol. 11. - P. 237-249.

70. Mozilla Firefox 2. Электронный ресурс. — Режим доступа: http://www.mozilla.com/en-US/, свободный.

71. Novak, J. Anti-Aliasing on the Web / J. Novak, P. Raghavan, A. Tomkins // WWW2004, New York, May 17-22, 2004. New York, USA, 2004. -Электронный ресурс. — Режим доступа: http://www.www2004.org/proceedings/docs/lp30.pdf, свободный.

72. Oracle Database 10g Express Edition. Электронный ресурс. - Режим доступа:http://www.oracle.com/technology/products/database/xe/index.html, свободный.

73. Hajek, P. Combining Functions for Certainty Factors in Consulting Systems / P. Hajek // Int. J. Man-Machine Studies. 1985. - Vol. 22. - P. 59-76.

74. Holmes, D. I. The Evolution of Stylometry in Humanities Scholarship / D. I. Holmes // Literary and Linguistic Computing. 1998. - Vol. 13, No. 3. -P. 111-117.

75. Hoover, D. Multivariate Analysis and the Study of Style Variation / David L. Hoover // Literary and Linguistic Computing. 2003. - Vol. 18, No. 4. -P. 341-360.

76. Hoover, D. Testing Burrows's Delta / David L. Hoover // Literary and Linguistic Computing. 2004. - Vol. 19, No. 4. - P. 453-475.

77. Juola, P. A Prototype for Authorship Attribution Studies / P. Juola, J. Sofko, P. Brennan // Literary and Linguistic Computing. 2006. - Vol. 21, No. 2. -P. 69-178.

78. Love, H. Authorship and attribution: an introduction / H. Love. Cambridge, United Kingdom: Cambridge University Press, 2002. - 271 p.

79. Pratt, P.J. A guide to SQL / P.J.Pratt. Canada: Thomson Course Technology. - 2005. - 294 c.

80. REC-CSS2-19980512. Cascading Style Sheets, level 2 — CSS2 Specification. Введен 12-May-1998. - Электронный ресурс. — Режим доступа: http://www.w3.org/TR/1998/REC-CSS2-19980512/cover.html, свободный.

81. Rusty, H. E. XML in a Nutshell / H. E. Rusty, M. W. Scott. USA : O'Reilly, 2003.-300 p.

82. Yule, G. U. The Statistical Study of Literary Vocabulary / U. G. Yule. -Cambridge : Cambridge University Press, 1944.1. МАТЕРИАЛЫ ИССЛЕДОВАНИЯ

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат технических наук Суровцова, Татьяна Геннадьевна

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Разработка и исследование алгоритмов сравнения стилей текстовых произведений2006 год, кандидат технических наук Шевелев, Олег Геннадьевич

Вводные компоненты как средство выражения и установления авторства текста2002 год, кандидат филологических наук Мухин, Николай Юрьевич

Методика и программный комплекс для идентификации автора неизвестного текста2010 год, кандидат технических наук Романов, Александр Сергеевич

Введение диссертации (часть автореферата) на тему «Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик»

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Атрибуция "Романа с кокаином": лингвостатистическое исследование2001 год, кандидат филологических наук Синелева, Анастасия Васильевна

Сравнительно-стилистический анализ произведений Ромена Гари и Эмиля Ажара2008 год, кандидат филологических наук Чепига, Валентина Петровна

Атрибуция публицистических произведений, приписываемых А.С. Пушкину: тексты 1830-1836 гг.2008 год, кандидат филологических наук Хозяинов, Сергей Александрович

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Суровцова, Татьяна Геннадьевна

Список литературы диссертационного исследования кандидат технических наук Суровцова, Татьяна Геннадьевна, 2008 год