Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах

Николаева, Ирина Викторовна

Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах тема диссертации и автореферата по ВАК РФ 10.02.21, кандидат филологических наук Николаева, Ирина Викторовна

Николаева, Ирина Викторовна
кандидат филологических наук
2007

Специальность ВАК РФ10.02.21

Количество страниц 253

Николаева, Ирина Викторовна. Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах: дис. кандидат филологических наук: 10.02.21 - Прикладная и математическая лингвистика. Москва. 2007. 253 с.

Оглавление диссертации кандидат филологических наук Николаева, Ирина Викторовна

Введение

Глава 1. Существующие алгоритмы обработки естественного языка

1.1 .Задачи обработки естественного языка

1.2. Особенности алгоритмов обработки естественного языка

1.3. Алгоритмы морфологического анализа в системах автоматического обработки естественно языковых (ЕЯ) текстов

1.3.1. Принципы построения компьютерной морфологии

1.3.1.1. Система кодирования словаря словоизменения

1.3.1.2. Точный морфологический анализ

1.3.1.3. Морфологический анализ на основе правил

1.3.1.4. Вероятностный морфологический анализ

1.3.2. Использование морфоанализа при разборе текста

1.3.2.1. Настройки морфоанализатора

1.3.2.2. Формальные факторы, определяющие варианты разбора слова

1.3.2.3. Учет контекста при разборе слова 33 1.4.Анализ тональности текста

1.4.1 Лингвистическая модель для компьютерного анализа тональности публикаций СМИ

1.4.2 Фильтрация и разбор пропозиций для оценки тональности

1.4.3 Прямая эмоционально-конноташвная характеристика

1.4.4 Ассоциированный эмоциональный коннотат

1.4.5 Методика принятия решения о тональности

1.5. Референция обозначений персон и организаций в публицистических текстах

1.5.1 Особенности референции обозначений в тексте

1.5.2 Обобщенный алгоритм анализа референции

1.5.3 Поиск референтов известных объектов

1.6. Поиск и классификация фактов

1.6.1 Технология фактографического поиска

1.6.2 RCO Pattern Extractor: компонент выделения особых объектов в тексте

1.6.2.1 Модуль предобработки текста

1.6.2.2 Выделение объектов

1.6.2.3 Словарный модуль 61 1.6.2.4. Модуль выделения объектов

1.7. Нейросетевая технология в обработке ЕЯ информации

1.7.1 Использование статистических методов

1.7.2 Ассоциативная семантическая сеть

1.7.3 Реализация прикладных функций тематического анализа текста

1.8. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза

1.8.1. Синтаксический анализ и эксплицирование отношений

1.8.2. Синтаксический синтез элементов смысла

1.8.3. Ранжирование элементов смысла и информационный портрет текста

1.9. Программные продукты для автоматического реферирования (Automatic Text Summarization) 81 1.10 Выводы по Главе

Глава 2. Поуровнсвый анализ ЕЯ текста в системах автоматической обработки

2.1. Знания о ЕЯ, необходимые для полного автоматического анализа

2.2. Общая схема автоматической обработки ЕЯ текста

2.3. Анализ отдельных слов

2.4. Проблема снятия омонимии 98 2.4.1 Традиционные методы снятия лексико-семантической омонимии

2.4.2 Современные тенденции в решении проблемы автоматического снятия омонимии

2.4.3 Преимущества использования частотных коллокаций

2.4.4 Понятие частотных устойчивых коллокаций

2.4.5 Характеристика поверхностных фильтров

2.4.6 Оценка эффективности работы фильтров

2.5. Пример морфологического словаря («Открытые системы»)

2.5.1 Структура морфологического словаря

2.5.2 Оболочка редактирования словаря

2.5.3 Бинарное представление словаря

2.5.4 Предсказание ненайденных слов

2.6. Анализ отдельных предложений

2.7. Анализ снизу вверх и сверху вниз

2.7.1. Парсинг

2.7.2. Системы со встроенными правилами

2.7.3. Сравнение эффективности

2.8. Классификация методов синтаксического анализа

2.9. Синтаксический анализ в системе

2.9.1 Синтаксическое правило

2.9.2 Алгоритм работы

2.10. Использование семантических грамматик

2.11. Семантический анализ

2.11.1 Первичный семантический анализ

2.11.2 Алгоритм поверхностного семантического анализа

2.12. Семантические сети и фреймы

2.13. Выявление сверхфразовой структуры

2.14. Выводы

Глава 3. Модель алгоритма обработки ЕЯ текста

3.1. Некоторые методы автоматического анализа ЕЯ, используемые в промышленных продуктах

3.1.1 Леке и ко- грам мати чес ки й анализ (Part-of-Speeeh-tagging)

3.1.2 Синтаксический анализ (Text Parsing)

3.1.3 Автоматическое реферирование(Automatic Text Summarization)

3.2. Эксперимент

3.2.1. Описание эксперимента

3.2.2. Результаты

3.2.3. Выводы

3.3.1 Модель текста

3.3.2 Схема обработки естественно-языкового текста

3.3.3 Первичная семантическая обработка

3.3.3.1 Инициализация семантических узлов и синтаксических вариантов фрагментов

3.3.3.2 Построение множества словарных интерпретации узлов

3.3.3.3 Построение групп времени

3.3.3.4 Построение узлов в кавычках

3.3.3.5 Построение узлов типа «друг друга»

3.3.3.6 Подключение операторов типа не, только

3.3.3.7 Построение устойчивых словосочетаний

3.3.3.8 Построение лексических функций-параметров

3.3.3.9 Установление отношений между локативными узлами

3.3.3.10 Интерпретация тезаурусных должностей и организаций

3.3.3.11 Процедура инициализации валентной структуры

3.3.3.12 Процедура построения графа гипотетических связей

3.3.3.13 Построение множественных актантов

3.3.3.14 Процедура удаления длинных связей

3.3.3.15 Процедура построения вариантов деревьев

3.3.3.16 Оценка деревьев

3.3.3.17 Проверка отношений по семантическим характеристикам

3.3.3.18 Проективность деревьев

3.3.3.19 Нарушение первой валентности и валентности из добавочных статей

3.3.3.20 Построение отношений по умолчанию

3.3.3.21 Межклаузные связи

3.3.3.22 Правило восстановления анафорических местоимений

3.3.4. Алгоритм обработки текста после первичного семантического анализа

3.3.5 Основные принципы связей

3.3.6Выявление тематического узда

3.3.7 Совместная встречаемость в предложениях

3.3.8 Семантическая сеть

3.3.9 Синтез информации из сети 230 3.4. Выводы по Главе

Введение диссертации (часть автореферата) на тему «Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах»

В настоящее время исследование тематической структуры текста приобрело особое практическое значение, поскольку совершенствование механизмов автоматического определения основной темы и подтем документа могло бы существенно улучшить эффективность информационного поиска в информационных системах. В течение нескольких последних десятилетий этой теме было посвящено большое число работ [Е. Black, G. Demetriou, М.А. Hearst, J.J. Hopfield, D.Jurafsky, J.S. Justeson, S.M. Katz, A.Kilgarriff, J.Kupiec, C.Manning, D. Pearce, J.Pedersen, H.Schutze., P. Tapanainen, L. Van Guilder, D. Yarowsky, Н.Д. Арутюнова, Б.В. Добров, A.E. Ермаков, P.M.Жаркой, A.A. Зализняк, A.A. Кибрик, Т. Ю. Кобзарева, Б.П.Кобрицов, Н.В.Крапухина, Д.М. Кузнецов, Н.Н. Леонтьева, II.В. Лукашевич, О.И.Максименко, Дж. Фон. Нейман, Л.В. Орлова, Е.В. Падучева, Р.Г.Пиотровский, В.В. Плешко, Д.А. Поспелов, Р.К.Потапова, Э. Хан г, А.А. Харламов, Д.В.Чистов, Д.Н. Шмелев, Д.Е. Шуклин и др.].

Автоматизированный анализ естественно-языковых (ЕЯ) текстов является важной задачей, сориентированной на обработку больших объемов информации. Значительная часть всей доступной на сегодняшний день информации существует в виде неструктурированных текстов. Книги, журнальные статьи, научно-исследовательские работы, руководства по эксплуатации товаров, меморандумы, электронные письма и, конечно, всемирная сеть содержат естественно-языковую текстовую информацию. Результаты анализа массивов текстов связаны с процессом информирования и принятия правильных практических решений.

Процедура автоматизированной обработки текстовой информации обеспечит новый эффективный механизм как навигации, автоматического создания рефератов документов, группировки и классификации, сравнения текстов, так и поиска информации.

Данное диссертационное исследование посвящено проблемам разработки лингвистического и алгоритмического обеспечения, служащего для создания современной системы извлечения ключевой содержательной информации посредством применения широкого класса математических и лингвистических методов логико-аналитической обработки больших массивов естественноязыковых текстов.

Актуальность данного исследования обусловлена необходимостью решения задачи разработки алгоритмов для проведения достоверного автоматического анализа постоянно увеличивающегося объема информации, порождаемого в рамках информационно-коммуникационных сред. Наличие вышеуказанной необходимости объясняется тем, что в последние годы быстрый рост индустрии информационно-поисковых систем, стимулированный расширением сферы Интернета, сосуществует с фактором относительно слабой развитости автоматизированных средств анализа естественно языковой информации, что связано с недостаточной степенью разработки соответствующего лингвистического обеспечения.

Научная новизна диссертации заключается в том, что: впервые разработана обобщенная схема обработки массива публицистических текстов на естественном языке для подъязыка СМИ;

- впервые выявлены тенденции с учетом соответствия результатов обработки естественно-языкового текста, выполненной компьютером и человеком;

- впервые предложена модель текста как композиция формальных моделей ее компонентов, в основе которой лежит интеграция статистических и формальных лингвистических методов;

- впервые разработан алгоритм извлечения элементов смысла из массива текстов ограниченной тематики, включающий блок первичной семантической обработки, блок индексации и ранжирования понятий, блок установления связей, блок выявления тематического узла, блок установления попарной встречаемости, блок построения семантической сети, блок синтеза информации из сети.

Рабочей гипотезой исследования является предположение о том, что попытка автоматически проанализировать значительный объем информации, порождаемый в пределах информационно-коммуникационных сред, возможно сделает ненужными большинство классических операций обработки и подготовки текстовой информации.

Основная цель диссертации заключалась в разработке механизма построения информационного портрета [по А.Е. Ермакову] массива документов на основе элементов смысла. Данная цель обусловила необходимость решения следующих задач:

- проведение анализа существующих систем автоматической обработки текстовой информации,

- разработка поэтапного алгоритма автоматического анализа массива документов,

- создание модели извлечения смысла посредством автоматического анализа и синтеза информационного корпуса,

- нахождение характеристик механизма построения семантической сети,

- построение модели синтеза строк, представляющих в унифицированном виде все элементарные отношения между ключевыми словами и словосочетаниями в тексте.

Основными методами исследования явились: метод сплошной выборки, метод эксперимента, метод статистического анализа.

Б качестве экспериментального материала диссертационного исследования был использован корпус газетных текстов на русском и английском языках, функционирующих в рамках компьютерных сетей.

Достоверность полученных результатов и обоснованность выводов обеспечивается репрезентативной выборкой использованного в ходе исследования материала и достаточным количеством испытуемых (3483 проанализированные лексические единицы, п = 37).

Объектом исследования является процесс автоматического анализа массивов документов.

Предметом исследования является разработка алгоритма автоматического анализа информационного массива ограниченной предметной области (международные отношения Россия - США).

Теоретическая значимость диссертации заключается в том, что полученные результаты являются вкладом в теорию автоматического анализа текстовой информации, в теорию алгоритмизации автоматического анализа текстовых документов, а также в теорию автоматизированных систем в целом.

Практическая ценность диссертации заключается в следующем: полученные экспериментальные данные о различиях между результатами обработки текста, выполненной компьютером и человеком, проведение формального описания естественного языка на каждом языковом уровне, разработанный оригинальный анализатор для автоматической обработки текстовой информации в прикладных системах, а также результаты работы над алгоритмом автоматической обработки естественного языка могут быть использованы при разработке различных приложений: систем автоматического перевода, аннотирования и реферирования текстов, а также при чтении курсов по прикладной и математической лингвистике.

Основные результаты работы были апробированы на различных конференциях: 10-й Международной конференции SPECOM'2005 ('Речь и компьютер') (Патры, Греция, 17-19 октября 2005 г.), 11-й Международной конференции SPECOM'2006 ('Речь и компьютер') (Санкт-Петербург, 25-29 июня 2006 г.), 9-й Международной конференции Cognitive modeling in linguistics ('Когнитивное моделирование в лингвистике') (София, Болгария, 28 июля - 3 августа 2007) 12-й Международной конференции SPECOM'2007 ('Речь и компьютер') (Москва, 15-19 октября 2007 г.).

Цели и задачи исследования обусловили структуру диссертации, которая состоит из введения, трех глав, заключения и списка литературы.

Заключение диссертации по теме «Прикладная и математическая лингвистика», Николаева, Ирина Викторовна

Основные результаты работы заключаются в следующем.

Основная цель обработки текста в современных прикладных системах - это формирование словаря слов и выявление связей между словами, потому что только наличие развитого смыслового портрета позволяет эффективно решать задачи аналитической обработки документа.

В настоящее время существуют сложные лингвистические алгоритмы, которые позволяют производить полный синтактико-семантический анализ текста на естественном языке. Но, тем не менее, большинство современных систем обработки естественного языка опирается на методы математической статистики и теории вероятностей.

Наиболее освоенные на сегодня методы базируются на хорошо формализованных алгоритмах, полученных в результате построения математических моделей предметных областей.

Такой тип обработки данных далеко не всегда подходит для систем автоматической обработки текста на естественном языке, который принадлежит к числу плохо формализуемых систем, так как для него плохо изучены аналитические зависимости или цепочки действий, приводящие к результату без интеллектуального вмешательства человека.

Основная трудность заключается в том, что нельзя с уверенностью сказать, что набор параметров, описывающий объекты данной предметной области, наверняка полон и адекватен, а сами измеренные значения параметров также в совокупности полны и непротиворечивы. Все это не позволяет применять для решения плохо формализуемых задач только лишь традиционные статистические методы.

Именно поэтому в дополнение к «традиционным» математическим методам появляются детально проработанные, проверенные экспериментально лингвистические методы.

Лингвистика, инженерия знаний и искусственный интеллект не являются изолированными науками, а, напротив, все они направлены на достижение одной цели, а потому и усилия специалистов различной направленности должны объединяться в изучении естественного языка.

В ходе эксперимента было установлено, что программа включает предложение текста в реферат, используя данные о наличии в нем ключевых слов (чем выше вес ключевых слов в предложении, тем больше вес самого предложения). Испытуемые выбирали те предложения, без которых, по их мнению, невозможно адекватное отражение содержания первичного текста вне зависимости от их количества и наличия в них ключевых слов. В результате средний объем реферата у испытуемых составил 45,7% от исходного текста (максимальный 53%), по сравнению с 23,9% в программном варианте (максимальный 25%).

Среднее количество простых предложений в составе сложных по данным испытуемых составило 3,47, по данным программы - 2,07. Это связано с тем, что предложения, помеченные испытуемыми как ключевые, являлись наиболее длинными предложениями текста. Программа выделяет ключевые предложения в зависимости от количества в них ключевых слов - соответственно, чем длиннее предложение, тем выше вероятность появления в нем ключевых слов, и, следовательно, тем выше вероятность, что оно само окажется ключевым. Существенная разница между вышеперечисленными средними значениями объясняется тем, что количество ключевых слов, отмеченных программой, всегда было выше, чем соответствующий показатель у испытуемых. Так как работа программы основана большей частью на статистических методах, то ключевые предложения были разной длины.

Большинство ключевых слов, отмеченных как испытуемыми, так и программой, оказалось существительными (объекты), на втором месте -прилагательные (атрибуты), на третьем - глаголы (действия). Доля остальных частей речи - незначительная, так как они встречаются не как самостоятельные ключевые слова, а исключительно в словосочетаниях (например, poisoned with thallium, one more example, murdered journalists, очень влиятельный, борьба за власть).

Если сопоставлять множества ключевых элементов, выбранные испытуемыми и программой, не учитывая веса, то следует отметить, что множество с учетом данных испытуемых полностью входит в множество данных программы (обратное неверно, так как в ходе эксперимента второе множество всегда превышало первое).

Проведенный эксперимент показал, что совокупные наборы ключевых слов и словосочетаний, выделенных испытуемыми и компьютерной программой, почти полностью совпадают, однако при ранжировании выделенных элементов по степени информативности выяснилось, что процент совпадений тем выше, чем выше смысловой вес выделенного ключевого слова или словосочетания. Тот факт, что компьютер и испытуемые помечали одни и те слова и словосочетания как ключевые, но при этом каждый присваивал одному и тому же объекту разную степень информативности, свидетельствует об отсутствии фоновых знаний у компьютерной программы и о разном уровне фоновых знаний у испытуемых (чем шире познания в данной области, тем ниже информативность).

Разработанный нами алгоритм обработки ЕЯ текста позволил сделать вывод, что обсуждаемые в тексте понятия связаны между собой разнообразными семантическими связями, многие из которых могут использоваться для организации тематической структуры того или иного текста. Для того чтобы автоматически выявлять основные понятия текста на основе имеющегося лингвистического ресурса необходимо восстановить сеть понятий, используемых в данном тексте, разбить сеть на совокупность тематических узлов и выделить основные тематические узлы.

Таким образом, благодаря методам автоматического анализа сейчас удается упростить или сделать ненужными многие классические операции обработки и подготовки информации. При этом, сейчас количественные методы анализа текстов играют существенно подчиненную и подготовительную роль для последующей вдумчивой работы специалистов, оснащенных проверенными методиками качественного исследования.

На базе предложенных методов обработки могут быть созданы модули анализа, и представления текстовой информации на естественном языке, применяемые для автоматической генерации модели изучаемого текста, синтеза текстовой информации по полученной модели, различных видов реферирования текстов, автоматизации перевода текстов, автоматического контроля усвоения материалов пользователем, который обучается языку.

Проведенный эксперимент и разработка модели алгоритма автоматической обработки текстовой информации позволили выделить основные трудности, возникающие при автоматическом анализе естественно-языкового текста, а именно:

1) большинство понятий текста одновременно связаны различными типами связи.

2) понятия основной темы связаны путем тех же концептуальных типов, которые были использованы для создания тематических узлов;

3) связи и способы могут варьироваться: в одном тексте элементы образуют один тематический узел, а в другом - разные тематические узлы.

Таким образом мы делаем вывод, что правильное определение узлов и понятий требует многоаспектного анализа.

Это означает, что автоматическая система сначала должна восстановить понятийную сеть и определить связи, которые можно использовать в тематических узлах, а потом анализировать их распределение в тексте.

Экспериментальная проверка позволила выявить различия между результатами обработки ЕЯ текста, выполненной компьютером и человеком для оценки эффективности компьютерной обработки ЕЯ текста.

В результате исследования построена лингвистическая модель извлечения элементов смысла из массива текстов ограниченной тематики, в основе которой лежит интеграция статистических и формальных лингвистических методов.

Модель включает:

1) блок первичной семантической обработки;

2) блок индексации и ранжирования понятий;

3) блок установления связей;

4) блок выявления тематического узла;

5 ) блок установления попарной встречаемости;

6) блок построения семантической сети;

7) блок синтеза информации из сети (см. Таблицу 1).

Заключение

Проведенный анализ современных прикладных систем обработки естественного языка позволил выявить следующие тенденции: большинство современных систем обработки естественного языка опирается на математику и статистику, что вызывает следующие трудности - во-первых, естественный язык является слабо формализуемой областью знаний, а во-вторых, наблюдается огромная пропасть между возможностями аппаратных средств и методами решения задач обработки текста.

То есть, в дополнение к математическим и статистическим методам должны использоваться проработанные лингвистические методы, которые приводят к реальным результатам.

Необходимо особо отметить тот факт, что лингвистика, инженерия знаний и искусственный интеллект непосредственно связаны между собой и не могут быть изолированы друг от друга в решении задач описания естественных языков.

Данное исследование вносит определенный вклад в развитие теории языковых уровней. Теоретическую ценность имеют смоделированные в ходе исследования лингвистические механизмы извлечения информации из массива текстов, использующие семантико-синтаксические особенности функционирования подъязыка.

Список литературы диссертационного исследования кандидат филологических наук Николаева, Ирина Викторовна, 2007 год

1. Black Е. An experiment in computational discrimination of English word senses, in IBM Journal, 32(2), 1988. P. 185-194.

2. C. Manning, H. Schutze. Foundations of Statistical Language processing. The MIT Press, 1999

3. Climent S., Rodriguez H., Gonzalo J. Definitions of the links and subsets for nouns of the EuroWordNet project, Deliverable D005, WP3.1, EuruWordNet, LE2, 2003.

4. Computational and Language E-print Archive http://xxx.lanl.gov/fmd/cmp-lg

5. Conexor (Functional Dependency Grammar) http://www.conexor.fi/

6. D. Jurafsky, James H. Martin. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Prentice-Hall, 2000

7. Dagan I., Itai A., Schwall U. Two languages are more informative than one // Proceedings of the ACL, 1991 (29). P. 130-137.

8. Damir Cavar, Alexander Geyken, Gerald Neumann(2000) Digital Dictionary of the 20th Century German Language in Language Technologies Conference 1718 October 2000 Slovenia (см. сайт www.dwds.de)

9. Demetriou G.C. Lexical disambiguation using constraint handling in Prolog (CHIP) // Proceedings of the European Chapter of the ACL, 1993 (6). P. 431436,

10. ERGO Linguistic Technologies http;//www.ergo-ling.com/

11. Eric Brill Unsupervised learning of disambiguation rules for part of speech tagging, Proceedings of ACL-95, 1995.

12. Extractor http ://ai.iit.nrc.ca/II public/extractor .html

13. Francis W.N., Kucera H. Manual of Information to accompany A Standard Corpus of Present-Day Edited American English, for use with Digital Computers.- Brown University Providence, Rhode Island Department of Linguistics Brown University, 1979.

14. From Language Engineering to Human Language Technologies (European Commisson report) MIKADO SA, Luxemburg, 1998.

15. Gale W.A., Church K.W., Yarowsky D. A method for disambiguating word senses in a large corpus // Computers and the Humanities, 1992, 26. P. 415439.

16. Guthrie J.A., Guthrie L., Wilks Y., Aidinejad H. Subject-dependent cooccurrence and word sense disambiguation // Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, СЛ., 1991. P.146-152.

17. H. Cunningham and D. Maynard and V. Tablan. JAPE: a Java Annotation Patterns Engine (Second Edition). Technical report CS—00—10, University of Sheffield, Department of Computer Science, 2000

18. Hearst M.A. Noun homograph disambiguation using local context in large text corpora // Proceedings of the 7th conference, UW Centre for the New OED & Text Research Using Corpora, 1991.

19. Hop field J.J. Neural networks и physical systems with emergent collective computational abilities. Pxoc. Natl. Acad. Sci. 79, 1982. p. 2554-2558

20. Human Language Technology Sector of the Information Society Technologies (1ST) Programme 1998 2000 - http://wwwJinglink.lu/

21. Information Technology: The Sixth Text REtrieval Conference (TREC-6), NIST SP 500-240, National Institute of Standards and Technology, 1998 pp. 1-24.

22. Intelligent Text Summarization AAA! Symposium on Intelligent Text Summarization - 96-19 CS-TR-3615 AAAI Technical Report SS-98-06, 1998 -pp.77-84.

23. Inxight http-.//www.inxight.com/

24. Jan Daciuk, Treatment of Unknown Words, proceedings of Workshop on Implementing Automata WIA'99. Potsdam, Germany, 1999, (C) Springer Verlag LNCS Series Volume 2214, pp. 71-80, 2001

25. Jiangsheng Yu, Zhihui Jin, Zhenshan Wen. Automatic Detection of Collocation // The 4th Chinese lexical semantics workshop, Hong-Cong, 2003. http://icl.pku.edu.cn/vuis/papers/pdf/col.pdf.

26. Julian Kupiec, Jan Pedersen, Francine Chen A Trainable Document Summarizer Xerox Palo Alto Research Centre, Palo Alto, CA, 1995.

27. Justeson J.S., Katz S.M, Technical terminology: some linguistic properties and an algorithm for identification in text // Natural Language Engineering, 1995, 1(1). P. 9-27.

28. Kilgarriff A., Rychly P., Smrz P., Tug well D. The Sketch Engine // Proceedings of the 1 1th EURALEX International Congress. Lorient, France : Universite de Bretagne-Sud, 2004. P. 105-116.

29. Language Text and Speech Retrieval. AAAI Symposium on Cross-Language Text and Legislative Indexing Vocabulary. - Washington: Congressional Research Service. The Library

30. Linda Van Guilder Automated Part of Speech Tagging: A Brief Overview (Handout for LING361, Fall 1995 Georgetown University) Georgetown University, 1995.

31. Linda Van Guilder Handout for LING361, Fall 1995 Georgetown University http://www.georgetown.edu/cball/ling361/tagging overview.html

32. Lingsoft (ENGCG)- http://!www.ingsoft.fi/

33. Link Grammar Homepage http://bobо. 1 ink.cs.emu.edu/link

34. Loukachevitch N. Text Summarization Based on Thematic Representation of Texts . ■ Intelligent Text Summarization AAAI Symposium on Intelligent Text Summarization -AAAI Technical Report SS-98-06. 1998

35. Lucien Tesniere Elements de syntaxe structurale. Editions Klincksieck, 1959, Paris.

36. Manning C.D., Schiitze H. Foundations of Statistical Natural Language Processing // Cambridge, Massachusetts: The MIT Press, 1999. Ch. 5. Collocations. http://nIp.stanford.edii/fsnIp/promo/collQC.pdf.

37. Martin Volk, Gerold Schneider Comparing a statistical and a rule-based tagger for German Proceedings of KONVENS-98, Bonn, 1998.

38. Masterman M. The thesaurus in syntax and semantics // Mechanical Translation, 4, 1957. P. 71-72

39. Mikheev Andrei, Automatic Rule Induction for Unknown Word Guessing, In Computational Linguistics vol 23(3), ACL 1997. pp. 405-423

40. Pasi Tapanainen, Atro Voutilainen Tagging accurately Don't'guess if you know. - Computational and Language E-print Archive, 1994

41. Pasi Tapanainen, Timo Jarvinen A non-projective dependency parser -Proceedings of Fifth Conference on Applied Natural Language Processing, Washington, D.C., 1997

42. Patrick A. B. An exploration of abstract thesaurus instantiation. M. Sc. thesis, University of Kansas, Lawrence, Kansas, 1985.

43. Prosum Summarizer http://transend.labs.bt.com/cgi-bin/prosum/Drosum

44. SPARKLE (Shallow PARsing and Knowledge Extraction for Language Engeneering) http://www.ilc.m.cnr.it/sparkle/sparkle.html

45. SRILM The SRI Language Modeling Toolkit. http://www.speech.sri.com/projectsfsrilm, 2005.

46. Stevenson M., Wilks Y. Large vocabulary word-sense disambiguation // Ravin Y., Leacock С (eds.) Polysemy: Theoretical and Computational Approaches. Oxford, 2002. P. 161-177.

47. Studies in Anaphora / ed. Barbara Fox. Amsterdam: Benjamins, 1996

48. Sussna M. Word sense disambiguation for free-text indexing using a massive semantic network // Proceedings of the International Conference on Information & Knowledge Management (CIKM), 2, 1993. P. 67-74.

49. Teragram Corporation (OEM POS tagger)-http.7/www.teragram.com/w3/liome.htm

50. TextAnalyst http://www.host.ru/-analvst/

51. TIPSTER Text Program archivehttp://www .nist. go v/itl/ di v894/8 94.02/related jproj ccts/tipstcr/

52. U. Nahm, R. Mooney. Mining soft-matching rules from textual data. WA, 2001

53. Virtual Reality and Multimedia Conference http://www.vsmm.vsl, gifu-u.ac.jp/vsmm98

54. Weiss S. Learning to disambiguate // Information Storage and Retrieval, v.9, 1973.

55. Wilks Y., Fass D., Guo C., Mcdonald J.E., Plate Т., Slator B.M. Providing Machine Tractable Dictionary Tools // Machine Translation, 5, 1990. P. 99154.

56. WordNet: a lexical database for the English language. htt&:f/www.cogsci.princeton.edu/~wn, 2005.

57. Yarowsky D. Unsupervised word sense disambiguation rivaling supervised methods U Proceedings of the ACL' 1995, 33.

58. Yarowsky D. Word sense disambiguation using statistical models of Roget's categories trained on large corpora // Proceedings of the 14th International Conference on Computational Linguistics, COLING'92, 23-28 August, Nantes, France, 1992. P. 454-460.

59. Ананян С., Харламов А. Автоматический анализ естественно-языковых текстов, http://www.megaputer.com/tech/wp/tm.php3 1997.

60. Арутюнова Н.Д. Предложение и его смысл. Москва, Наука, 1976,

61. Арутюнова, Н.Д. Язык и мир человека. М., 1998,

62. Ахутина Т.В. Порождение речи. 11 ейро-ли11гвистический анализ синтаксиса М.: МГУ, 1989. - 215с.

63. Большаков И.А., Галисия-Аро С.Н. Сколько страниц на данном языке содержит Интернет? // Труды международной конференции Диалог'2003. М., 2003.

64. Борисова Е.Г. Коллокации. Что это такое и как их изучать? М., 1995.

65. Брагина Н.Н., Доброхотова Т.А. (1981). Функциональные асимметрии человека. М: Медицина

66. Гарант-Парк-Интернет. Технологии анализа и поиска текстовой информации, http://research, metric.ru, 2005.

67. Гладкий A.B. Формальные грамматики и языки. М.: Наука, 1973. 368 с

68. Глезерман Т.Б. (1986). Психофизиологические основы нарушений мышления при афазии. М.: Наука.

69. Добров Б.В., Лукашевич Н.В. Построение структурной тематической аннотации текста, 1996. с.130-134.

70. Добровольский Д.О. Корпус параллельных текстов как инструмент анализа литературного перевода. Труды международной конференции Диалог'2003. М„ 2003.

71. Дударь З.В., Шуклин Д.Е. Семантическая нейронная сеть, как формальный язык описания и обработки смысла текстов на естественном языке. Радиоэлектроника и информатика, X.: Изд-во ХТУРЭ, 2000.- №. 3. С.72-76.

72. Ермаков А.Е. (2000). Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. N 11

73. Ермаков А.Е. Проблемы полнотекстового поиска и их решение. // Мир ПК.-2001,-N5.-С. 64-66,

74. Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. Москва, Наука, 2003

75. Ермаков А.Е., Плешко В.В. (2000). Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. N 12

76. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста. // Информационные технологии. 2002. -N 7. - С. 30-34

77. Ермаков А.Е., Плешко В.В. Тематическая навигация в полнотекстовых базах данных. // Мир ПК. 2001. - N 8. - С. 52-55,

78. Зализняк А.А. Грамматический словарь русского языка. М., 1977, 4-е изд.: М., 2003.

79. Зализняк А.А. Грамматический словарь русского языка. Словоизменение. 3-е изд. М. Русский язык, 1987

80. Кобзарева Т. Ю. Проблема кореференции в рамках поверхностно-синтаксического анализа русского текста // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. Москва, Наука, 2003

81. Копотев М. «Несмотря на» «потому что», или Многокомпонентные единицы в аннотированном корпусе русских текстов. Диалог'2004. М., 2004.

82. Лебедев М.В., Черняк Л.З. Онтологические проблемы референции. М., "Праксис", 2001

83. Леонтьева Н.Н. О компонентах системы понимания текста // Уровни текста и методы его лингвистического анализа . М., 1982, С. 124-140

84. Лукашевич Н.В., Добров Б.В. Построение и использование тематического представления содержания документов // 5 Национальная конференция КИИ-96. Казань, 1996

85. Лукашевич Н.В., Салий А.Д. Представление знаний в системе автоматической обработки текстов // НТИ. Сер.2. 1997 - N3

86. Меркурьева Н. М. Словарь антонимов русского языка: Сложные слова. Около 1800 антонимических пар. М,, Издательство: "Газета "Правда"", 1999

87. Нейман Дж. Фон. Теория самовоспроизводящихся автоматов / закончено и отредактировано А. Бёрксом.- М.: "Мир", 1971. 384 с. 5.

88. Орлова Л.В. Структура сверхфразового единства в научных текстах. -Киев: Наукова Думка, 1988. 154с.

89. Падучева, Е.В. Высказывание и его соотнесенность с действительностью. М., 1985,

90. Пиотровский Р.Г., Билан В.Н., Боркун М.Н., Бобков А.К. Методы автоматического анализа и синтеза текста — Минск: Вышейная школа, 1985

91. Плешко В.В., Ермаков А.Е., Липинский Г.В. TopSOM: визуализация информационных массивов с применением самоорганизующихся тематических карт // Информационные технологии. 2001. - N 8. - С. 8-11

92. Поспелов Д.А. Искусственный интеллект. Кн. 2. М.: Радио и связь, 1990

93. Проект GATE (General Architecture for Text Engineering) http://www.gate.ac.uk/

94. Рогожникова P. П. Словарь эквивалентов слова. M., 2003.

95. Селезнев. P.I 1. Моделирование языковой деятельности винтеллектуальных системах. М., Наука - с. 64-77, 1997

96. Т.А. Грязнухина, Н.П. Дарчук, В.И. Критская, Н.П. Маловица и др. Синтаксический анализ научного текста на ЭВМ, К.: Научная мысль, 1999

97. Тихонов А.Н. Морфемно-орфографический словарь: Русская морфемика. М. Школа-Пресс, 1996;

98. Хаит Э. Искусственный интеллект. Пер, с англ. -М.: Мир, 1978

99. Харламов А. Автоматический структурный анализ текстов // Открытые системы . 2002 . №10, С. 62-65

100. Харламов А. А. Ассоциативный процессор на основе нейроподобных элементов для структурной обработки информации. // Информационные технологии, 1997, № 8, с. 40-44

101. Харламов А.А. Динамические рекуррентные нейронные сети для представления речевой информации. // Информационные технологии, 1997, № 10,-с. 16-22

102. Харламов А.А., Жаркой P.M., Волков В.И., Мацаков Г.Н. Система распознавания изолированных рукописных символов на основе иерархической структуры из динамических ассоциативных запоминающих устройств. // Информационные технологии, 1998, № 5. с. 27-31

103. Чистов Д.В., Крапухина Н.В., Меньшиков Г.Г., Кулехин С,Ю. Моделирование естественно-языковых текстов с использованием объектного подхода

104. Шведова Н.Ю. Очерки по синтаксису русской разговорной речи. М., 1960. 2-е изд.: М., 2003.

105. Шмелев Д.И. О семантических изменениях в современном русском языке // Шмелев Д.Н. Избранные труды по русскому языку. М., 2002.

106. Шуклин Д.Е. Структура семантической нейронной сети извлекающей в реальном времени смысл из текста. Кибернетика и системный анализ. Киев. Изд-во Ин-та кибернетики, 2001.- № 2. С.43-48

107. Шуклин Д.Е. Структура семантической нейронной сети реализующая морфологический и синтаксический разбор текста. Кибернетика и системный анализ. Киев, Изд-во Ин-та кибернетики, 2001.- № 5. С.177-1

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат филологических наук Николаева, Ирина Викторовна

Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Формирование контента реферата при автоматическом реформировании научного текста2010 год, кандидат технических наук Пачковская, Светлана Валерьевна

Разработка и исследование методов и системы семантического анализа естественно-языковых текстов2010 год, кандидат технических наук Мокроусов, Максим Николаевич

Введение диссертации (часть автореферата) на тему «Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах»

Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Построение модели извлечения информации из технических текстов2006 год, кандидат филологических наук Бабина, Ольга Ивановна

Автоматизированные системы управления и обработки информации для архивов медицинских документов1999 год, кандидат технических наук Трояновская, Ольга Вадимовна

Заключение диссертации по теме «Прикладная и математическая лингвистика», Николаева, Ирина Викторовна

Список литературы диссертационного исследования кандидат филологических наук Николаева, Ирина Викторовна, 2007 год