Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Полицына, Екатерина Валерьевна
- Специальность ВАК РФ05.13.17
- Количество страниц 137
Оглавление диссертации кандидат технических наук Полицына, Екатерина Валерьевна
Введение
1. Исследование современного состояния и методов автоматизированного анализа текста
1.1. Понятие текста и необходимость автоматизации его анализа.
1.2. Исследование развития автоматического и автоматизированного анализа текста.
1.2.1. Исследование задачи автоматизации анализа текста.
1.2.2. Обзор сфер применения автоматизированного анализа текста.
1.2.3. Базовые методы, используемые при автоматизирован-ном анализе текста.
1.2.4. Основные этапы автоматизированного анализа текста.
1.3. Классификация и обзор систем и инструментов анализа текста.
1.4. Основные проблемы автоматизированного анализа текста.
1.5. Выводы.
2. Создание открытой системы автоматизированной обработки текста
2.1. Определение требований к системе.
2.2. Концептуальная модель открытой системы автоматизированной обработки текста.
2.3. Структура открытой системы автоматизированной обработки текста
2.3.1. Система базовой обработки.
2.3.2. Система хранения.
2.3.3. Система анализа результатов.
2.3.4. Аналитическая система накопления поступающей информации.
2.3.5. Система хранения.
2.3.6. Система поддержки пользователя.
2.4. Выводы.
3. Разработка инструментальных средств автоматизированного анализа текста
3.1. Создание инструментальных средств аналитической обработки текста
3.2. Разработка языка сценариев.
3.2.1. Общая характеристика языка сценариев.
3.2.2. Операции над структурами и их формальное описание.
3.2.3. Операции управления.
3.2.4. Статусы операций.
3.2.5. Практическое применение операций.
3.3. Прогнозирование времени обработки текста.
3.3.1. Экспериментальные оценки времени обработки.
3.3.2. Определение вида кривой регрессии.
3.3.3. Методика прогнозирования времени обработки.
3.3.4. Примеры оценки времени обработки текстов.
3.4. Выводы.
4. Экспериментальная проверка разработанных инструментальных средств анализа текста.
4.1. Возможность реализации множества подходов к анализу текста.
4.2. Реализация подхода «множество текстов - один сценарий»: составление словарей писателей.
4.2.1. Исходные данные.
4.2.2. Алгоритм и результаты работы сценария.
4.3. Реализация подхода «один текст - множество сценариев»: определение используемости одного текста в другом.
4.3.1. Исходные данные.
4.3.2. Алгоритм работы сценария.
4.3.3. Полученные результаты.
4.4. Реализация подхода «множество текстов - множество сценариев»: исследование словарного запаса писателей.
4.5. Применение адаптивно-динамической модели анализа текста на примере автоматизированного классифицирования текстов.
4.5.1. Исходные данные.
4.5.2. Алгоритм работы сценария.
4.5.3. Полученные результаты.
4.6. Создание библиотек шаблонов.
4.7. Результаты реализации предложенных моделей и перспективы развития.
4.8. Выводы.
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Разработка системы концептуального моделирования и автоматизации синтеза сценариев регулирования регионального рынка труда1998 год, кандидат технических наук Котомин, Александр Борисович
Комплекс программ генерации обучающих компонент на основе диалоговой модели информационно-управляющей системы2005 год, кандидат технических наук Аксенов, Олег Анатольевич
Лингвистический подход в ситуационном управлении технологическими процессами1999 год, доктор технических наук Константинов, Игорь Сергеевич
Разработка и исследование инструментальных средств многоязыковой трансляции2005 год, кандидат технических наук Фадеев, Роман Викторович
Методы, модели, алгоритмы, инструментальные средства построения имитационно-лингвистических систем2004 год, доктор технических наук Ходашинский, Илья Александрович
Введение диссертации (часть автореферата) на тему «Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа»
Актуальность темы диссертации
К середине XX века непрерывный рост объемов вырабатываемой человечеством информации сделал крайне актуальными задачи поиска информации в огромных массивах данных, ее выбора и упорядочения по тем или иным признакам. К этим задачам относятся классификация, кластеризация, составление картотек, словарей и энциклопедий и др. Появление вычислительной техники способствовало в 1960-е гг. созданию различных теорий в области лингвистики и представления знаний (Ю.Д. Апресян, М. Мински, Д.А. Поспелов, Р. Шенк, И. Уилкс, В.А. Звягинцев, Т. Виноград, А.К. Жолковский, Ч. Филмор и др.), развитию методов автоматизированного анализа текста, проектированию и разработке систем, реализующих их.
В последние десятилетия появилось множество систем автоматизированного анализа текста, предназначенных для решения отдельных задач или небольшого набора задач. Большая часть этих систем является экспериментальными и предназначены для работы с ограниченными объемами информации. При этом изменение алгоритма решения или расширение функционала системы пользователем практически невозможно.
Это определяет актуальность как теоретических работ по созданию новых подходов к построению систем автоматизированного анализа текста, открытых для расширения и модификации пользователями, так и практических разработок пользовательских инструментов, реализующих в рамках этих систем функции обработки текста.
Цель диссертационной работы
Целью диссертационной работы является создание новой системы автоматизированного анализа текста, предоставляющей пользователю возможность гибкой настройки на решаемую задачу путем выбора оптимального набора инструментов и создания новых инструментов.
Для достижения поставленной цели, в работе необходимо решить следующие задачи:
Выделение круга задач обработки текста для решения средствами новой системы автоматизированного анализа текста.
2. Анализ существующих методов автоматизированной обработки текста.
3. Анализ существующих систем автоматизированной обработки текста, решающих названные выше задачи.
4. Определение структуры и функционала создаваемой системы автоматизированной обработки текста.
5. Разработка ядра системы автоматизированной обработки текста.
6. Разработка инструментальных средств анализа текста.
7. Разработка метода оценки времени обработки текста и методики его прогнозирования.
8. Экспериментальная проверка разработанной системы автоматизированной обработки текста и инструментальных средств анализа текста.
Предмет исследования
Предметом исследования в диссертационной работе являются методы анализа естественно-языковых текстов на русском языке и реализующие их автоматизированные системы.
Методы исследования
Методы исследования заимствованы из следующих областей:
• компьютерная и структурная лингвистика;
• математический анализ;
• теория вероятностей и математическая статистика;
• теория множеств;
• базы данных;
• языки программирования высокого уровня.
Научная новизна
Научную новизну диссертационной работы составляют следующие результаты, полученные в ходе решения поставленных задач:
• структура открытой системы автоматизированной обработки текста;
• инструментальные средства обработки текстов и анализа полученных результатов;
• методика прогнозирования времени обработки текста. Практическая ценность работы
Практическую ценность работы составляют следующие результаты:
• базовые компоненты системы автоматизированного анализа текста;
• инструментальные средства построения алгоритмов анализа текстов.
Положения, выносимые на защиту
На защиту выносятся следующие основные положения:
• концептуальная модель и структурная схема открытой системы автоматизированной обработки текста;
• принципы организации инструментальных средств анализа результатов обработки текста;
• методика оценки времени обработки текста.
Структура и объем работы
Работа состоит из введения, четырех глав, заключения, списка литературы и 5 приложений. Работа изложена на 124 страницах и включает 20 рисунков, 6 таблиц, список литературы из 123 наименований, а также приложения на 13 страницах. Общий объём работы - 137 страниц.
Краткое содержание работы
Во введении обосновывается актуальность темы диссертационной работы. Характеризуется область исследования. Обосновываются научная новизна и практическая значимость выполненного исследования. Формулируются цели исследования и основные положения, выносимые на защиту.
В первой главе рассматриваются и характеризуются практические задачи и направления автоматизированной обработки текста, описываются методы и этапы автоматизированного анализа текста. Вводится классификация систем анализа текста, в соответствии с которой описываются существующие системы. Определяются основные проблемы автоматизированного анализа текста.
Вторая глава посвящена описанию структуры разрабатываемой открытой системы автоматизированного анализа текста. Определяются требования к системе, на основе которых предлагается концептуальная модель системы анализа текста. Описывается структура системы, ее свойства, подход к обработке данных, принципы развития и накопления информации.
Третья глава посвящена разработке инструментальных средств автоматизированного анализа текста. Формулируются подходы к анализу текста. Описываются операции и основные особенности языка сценариев, типы структур извлекаемой из текстов информации. Приводятся описания операций над структурами на примере операций над словниками и примеры практического применения этих операций. Предлагается способ оценки зависимости времени обработки от размера текста и методика прогнозирования времени.
Четвертая глава содержит примеры использования инструментальных средств анализа текста и реализацию описанных подходов к анализу текстов: «множество текстов - один сценарий», «один текст - множество сценариев», «множество текстов - множество сценариев» и адаптивно-динамической модели преобразования информации на примере классификации текстов.
В заключении приводятся основные результаты и выводы диссертационной работы.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Инструментальная система программирования, ориентированная на построение специализированных синтезаторов программ1984 год, кандидат физико-математических наук Долидзе, Давид Шотаевич
Построение АИПС с развитым сценарием диалога для многоаспектного информационного поиска2001 год, кандидат технических наук Краснопольский, Дмитрий Владимирович
Модели и алгоритмы интеллектуальной поддержки принятия решений при создании открытых информационных систем2007 год, кандидат технических наук Королев, Антон Сергеевич
Научные основы автоматизации и моделирования процессов управления на основе гибридных систем поддержки принятия решений с открытой структурой2006 год, доктор технических наук Балдин, Александр Викторович
Методология проектирования и сопровождения автоматизированных систем с мультиагентными средствами интеллектуальной поддержки жизненного цикла сценариев работ2009 год, доктор технических наук Мисевич, Павел Валерьевич
Заключение диссертации по теме «Теоретические основы информатики», Полицына, Екатерина Валерьевна
4.8. Выводы
1. С помощью разработанных инструментальных средств анализа текста были продемонстрированы решения разнообразных практических задач путем составление сценария анализа.
2. Приведены примеры реализации алгоритмов сравнения и классификации текстов, составления словарей писателей и их исследования.
3. Созданы библиотеки шаблонов для решения лингвистических задач и задачи классификации текстов.
4. Показано, что реализация адаптивно-динамической модели преобразования информации позволит автоматизировать процесс накопления в системе знаний, необходимых для решения различных задач.
5. Предложенные инструментальные средства анализа текста позволяют пользователям решать широкий набор исследовательских и практических задач.
Заключение
В ходе решения задач, поставленных в диссертационной работе, были получены следующие результаты:
1. Проанализированы методы анализа естественно-языковых текстов и реализующие их автоматизированные системы.
2. В качестве отдельного уровня анализа текста выделено использование аналитических методов.
3. Предложена концептуальная модель открытой системы автоматизированной обработки текста.
4. Разработана структура и определен функционал открытой системы автоматизированной обработки текста.
5. Разработано ядро системы автоматизированной обработки текста.
6. Разработаны инструментальные средства анализа текста, основным из которых является язык сценариев.
7. Предложен метод оценки времени обработки текста, на его основе разработана методика прогнозирования времени обработки текста.
8. Продемонстрирована работа созданных инструментальных средств на примере решения некоторых задач анализа текста.
112
Список литературы диссертационного исследования кандидат технических наук Полицына, Екатерина Валерьевна, 2012 год
1. Анисимов, А. В. Компьютерная лингвистика для всех: Мифы. Алгоритмы. Язык / А. В. Анисимов. Киев: Наукова думка, 1991.- 208 е.: ил.
2. Бабин, Д. Н., Мазуренко, И. JL, Холоденко, А. Б. О перспективах создания системы автоматического распознавания слитной устной русской речи // Интеллектуальные системы, 2004. Т.8. - Вып. 1-4. -Стр. 45-70.
3. Балакирев, Н. Е., Гирин, Б. Б. Основные концепции языка описания алгоритмов анализа естественно-языкового текста // Информационные технологии. 2008. - №9, стр. 42-47.
4. Башмаков, А. И. Интеллектуальные информационные технологии: Учеб пособие / А. И. Башмаков, И. А. Башмаков. М.: Изд-во МГТУ им. Н. Э. Баумана, 2005. - 304с.: ил.
5. Белов, А. А., Волович М. М. Автоматическое распознавание тематики сверхкоротких текстов // Компьютерная лингвистика и интеллектуальные технологии. Международная конференция «Диалог 2007». Труды конференции. Наро-Фоминск, 2007.
6. Белоногов, Г.Г. Компьютерная лингвистика и перспективные информационные технологии. М.: Русский мир, 2004. - 248с.
7. Белоногов, Г.Г., Кузнецов, Б. А. Языковые средства автоматизированных информационных систем М.: Наука, 1983.
8. Белоногов, Г.Г., Калинин, Ю.П., Хорошилов, A.A., Хорошилов, Ал-сей А. Компьютерная лингвистика и перспективные информационные технологии. НТИ СЕР. 2 . Информ. процессы и системы. 2004 . № 8.
9. Большакова, Е. И. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : учеб. пособие / Е. И. Большакова, Э. С. Клышинский, Д. В. Ландэ, А. А. Носков, О. В. Пескова, Е. В. Ягунова — М.: МИЭМ, 2011. — 272 с.
10. Большая советская энциклопедия. Гл. ред. А.М. Прохоров, 3-е изд.Т. 1-30. М., «Сов. энциклопедия», 1969-78.
11. БСЭ. Статья «Автоматический анализ текста». Электронный ресурс. URL: http ://www. diclib. com/cgi-bin/ d 1. cgi?l=ru&base=bse& page=showid&id= 1041 (дата обращения: 27.12.2010).
12. БСЭ. Статья «Текст». Электронный ресурс. URL: http://slovari.yandex.ru/TeKCT/EC3/TeKCT/ (дата обращения: 27.12.2010).
13. Валгина, Н. С. Синтаксис современного русского языка / Н. С. Валгина. М.: Высшая школа, 2003. - 432с.
14. Валгина, Н. С. Теория текста: Учебное пособие. / Н. С. Валгина. -Москва: Изд-во МГУП «Мир книги», 1998. 210 с.
15. Воронина, И. Е., Кретов, А. А., Титова, О. С. Программные средства выявления семантического поля слов // Вестник ВГУ, серия: Системный анализ и информационные технологии, 2008, № 2. С.111-122.
16. Воронина, И. Е., Львович, Я. Е. Алгоритмизация системного анализа языковой среды человека // Вестник Воронежского государственного технического университета. 2009. Т. 5. № 12. С. 143-146.
17. Воронина, И. Е., Львович, Я. Е. Компьютерное моделирование лингвистических объектов // Вестник Воронежского государственного технического университета. 2009. Т. 5. № 12. С. 10-15.
18. Выготский, JI. С. Мышление и речь. Изд. 5, испр. / JI. С. Выготский. М.: Издательство "Лабиринт", 1999. — 352 с.
19. Гирин, Б. Б. О разработке языка описания алгоритмов анализа текста // XXXI Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2005.
20. Гирин, Б. Б. Основные концепции инструментальной системы для синтаксического анализа естественно-языковых текстов // XXXIV Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2008.
21. Гирин, Б. Б. Язык описания алгоритма анализа естественноязыкового текста// XXXIII Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2007.
22. Гладкий, А. Л. Синтаксический структуры естественного языка в автоматизированных системах общения. -М. Наука, 1985. 144с.
23. Добрышина, E. В. Основные проблемы и принципы автоматизированного определения смысла текста на естественном языке // XXXIII Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2007.
24. Добрышина, Е. В. Программные средства статистического исследования текстов для построения семантической сети // XXXII Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2006.
25. Добрышина, Е. В. Система анализа больших объемов текстовой информации // XXXIV Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2008.
26. Евдокимова, И. С. Естественно-языковые системы: курс лекций / И.С. Евдокимова. Улан-Удэ: Изд-во ВСГТУ, 2006. - 92 е.: ил.
27. Ермаков, А. Е. Компьютерная лингвистика и анализ текста // Мир ПК, 2002. - №9.
28. Ермаков, А. Е. Неполный синтаксический анализ текста в информационно-поисковых системах. Компьютерная лингвистика и интеллектуальные технологии: труды Международного семинара Диалог, 2002. В двух томах. Т.2. "Прикладные проблемы". Москва, Наука, 2002.
29. Ермаков, А. Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. 2000. - N 11. Электронный ресурс. URL: http://www.rco.ru/article.asp?obno=33 (дата обращения: 27.12.2010).
30. Ермаков, А. Е., Плешко, В. В. Ассоциативная семантическая сеть: статистическая модель восприятия и порождения текста // Труды международной конференции Диалог, 2001.
31. Зализняк, А. А. Грамматический словарь русского языка. Словоизменение / A.A. Зализняк. М.: Русский язык, 1987. - 880с.
32. Звягинцев, В. А. Очерки по общему языкознанию / В. А. Звягинцев. М.: Либроком. 2009. 384с.
33. Интернет Университет Информационных технологий. Интеллектуальные робототехнические системы. Системы представления знаний. Электронный ресурс. URL: http ://www. intuit.ru/department/ human/isrob/2/ (дата обращения: 24.12.2010).
34. Интернет Университет Информационных технологий. Интеллектуальные робототехнические системы. Проблемы понимания естественного языка. Электронный ресурс. URL: http://www.intuit.rU/department/human/isrob/5/ (дата обращения: 24.12.2010).
35. Кибрик, А. Е. Константы и переменные мира / А. Е. Кибрик,-СПб.: Алетейя, 2005. 720с.
36. Кирсанов, Д. Описание программы Свежий взгляд / Fresh Eye Электронный ресурс. URL: http://www.kirsanov.com/fresheye/ (дата обращения: 27.12.2010).
37. Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог, 2005. М.: Наука, 2005.
38. Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог, 2006. М.: Наука, 2006.
39. Кулагина, О. С. Об автоматическом синтаксическом анализе русских текстов. Препринт / ИПМ АН СССР. М. 1987. №205.
40. Леонтьева, Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие для студ. лигв. фак. Вузов / Н. Н. Леонтьева. М.: Издательский центр «Академия», 2006. - 304с.
41. Мальковский, М. Г. Прикладное программное обеспечение: системы автоматической обработки текстов / Мальковский М.Г., Грацианова
42. Т.Ю., Полякова И.Н. М.: МГУ, издательский отдел факультета ВМК, 2000. -52 с.
43. Манаев, О. Т. Контент-анализ — описание метода. «ПСИ-ФАКТОР» — информационный ресурсный центр по практической психологии. Электронный ресурс. URL: http://psyfactor.org/lib/kontent.htm (дата обращения: 27.12.2010).
44. Марчук, Ю. Н. Основы компьютерной лингвистики. Учебное пособие. Издание 2-е дополненное. / Ю. Н. Марчук. М.: Изд-во МПУ "Народный учитель", 2000. - 226с.
45. Машинный фонд русского языка. Электронный ресурс. URL: http://cfrl.ru/ (дата обращения: 24.12.2010).
46. Мельчук, И. А. Опыт теории лингвистических моделей «Смысл « Текст». М., 1974 (2-е изд., 1999). - 345с.
47. Налимов, В. В. Вероятностная модель языка. О соотношении естественных и искусственных языков. 2 изд., перераб. и доп. / В. В. Налимов. М.: Наука, 1979. - 272с.
48. Нечипоренко, А., Русин, А. Система автоматизированного извлечения знаний из текстов на естественном языке // Труды международной научно-технической конференции "Информационные системы и технологии 2003" НГТУ, Новосибирск, 2003.
49. Новейший философский словарь: 3-е изд., исправл. — Мн.: Книжный Дом. 2003,— 1280 с.
50. Общая психология. Словарь. Статья «Язык» / Под. ред. А.В. Петровского //Психологический лексикон. Энциклопедический словарь в шести томах / Ред.-сост. JI.A. Карпенко. Под общ. ред. А.В. Петровского. — М.: ПЕР СЭ, 2005, —251 с.
51. Описание системы Ngram Statistics Package Электронный ресурс. URL: http://www.d.umn.edu/~tpederse/nsp.html (дата обращения: 27.12.2010).
52. Описание продукта Google Mini, Google Desktop Электронный ресурс. URL: http://www.googlestore.com/appliance/product.asp?catid=3 (дата обращения: 27.12.2010).
53. Пиотровский, Р. Г. Инженерная лингвистика и теория языка. JL: Наука, 1979.- 111 с.
54. Попов, М. Ю. Визуализация семантической структуры и реферирование текстов на естественном языке. Труды конференции Диалог-2003. Электронный ресурс. URL: http://www.dialog-21 .ru/Archive/2003/Popov.htm (дата обращения: 27.12.2010).
55. Попов, Э. В. Общение с ЭВМ на естественном языке / Э. В. Попов. М.: Едиториал УРСС. 2004. - 360с.
56. Протасов, С. Описание программы лингвистического анализа и обработки текстов Link Grammar Parser for Russian Электронный ресурс. URL: http://slashzone.ru/parser/ (дата обращения: 27.12.2010).
57. Ростовцев, В. С. Принципы построения экспертных систем. Учебное пособие / В. С. Ростовцев. Киров: Изд-во ВятГУ, 2007. - 155с.
58. Русская виртуальная библиотека. Описание программы WordTabulator Электронный ресурс. URL: http://www.rvb.ru/soft/index.html (дата обращения: 27.12.2010).
59. Сайт рабочей группы АОТ. Электронный ресурс. URL: www.aot.ru (дата обращения: 24.12.2010).
60. Сайт корпорации «Галактика». Описание продукта Galaktika-ZOOM Электронный ресурс. URL: http://www.galaktika-zoom.ru/ (дата обращения: 27.12.2010).
61. Сайт ОАО «Интелл Сервис». Описание поисковой системы AskNet Электронный ресурс. URL: http://info.asknet.ru/portal.htm (дата обращения: 27.12.2010).
62. Сайт компании «Медиалогия». Электронный ресурс. URL: http://www.mlg.ru (дата обращения: 27.12.2010).
63. Сайт компании НооЛаб. Опсиание продукта URS v. 1.1 Электронный ресурс. URL: http://www.noolab.ru/index.php7icNabout (дата обращения: 27.12.2010).
64. Сайт компании САЙТЭК. Описание НАС «АРИОН» Электронный ресурс. URL: http://sytech.ru/about.php?id-5 (дата обращения: 27.12.2010).
65. Сайт компании "ЭР СИ О". Описание технологии Russian Context Optimizer Электронный ресурс. URL:http://www.rco.ru/ (дата обращения: 27.12.2010).
66. Сайт компании «Яндекс». Описание программы My stem Электронный ресурс. URL: http://company.yandex.ru/technologY/mystem/ (дата обращения: 27.12.2010).
67. Сайт компании «Яндекс». Описание технологии Яndex.Server Электронный ресурс. URL: http://company.yandex.ru/technology/server/ (дата обращения: 27.12.2010).
68. Сайт компании Athelstan. Системы Mono Сопс/ Para Cone. Электронный ресурс. URL: http://athel.com/product info.php?productsid=81 (дата обращения: 27.12.2010).
69. Сайт компании Cognitive Technologies. Описание продукта Cognitive Астарта Электронный ресурс. URL: http://www.cognitive.ru/products/astarta/ (дата обращения: 27.12.2010).
70. Сайт компании LingSoft, Inc. Описание системы LingSoft Электронный ресурс. URL: http://www.lingsoft.fi/?lang=en (дата обращения: 27.12.2010).
71. Сайт компании Microsystems, Ltd. Система TextAnalist. Электронный ресурс. URL: http://www.analyst.ru (дата обращения: 27.12.2010).
72. Сайт компании NeurOK. Описание продукта Semantic Explorer Электронный ресурс. URL: http://soft.neurok.ru/products/semantic.shtml (дата обращения: 27.12.2010).
73. Сайт компании Ontos AG. Описание системы Ontos Электронный ресурс. URL: http://ontos.com/ (дата обращения: 27.12.2010).
74. Сайт компании Relevant Software Inc. Описание продукта netXtract Электронный ресурс. URL: http ://www.relevantsoftware .сот/ (дата обращения: 27.12.2010).
75. Сайт компании SourceForge. Описание системы Forson, a sentence generation tool Электронный ресурс. URL: http://sourceforge.net/proiects/forson/ (дата обращения: 27.12.2010).
76. Сайт проекта BAAJI. Электронный ресурс. URL: www.vaal.ru (дата обращения: 27.12.2010).
77. Селезнев, К. Обработка текстов на естественном языке // «Открытые системы» , № 12, 2003. Электронный ресурс. URL: http://stem.osp.ru/os/2003/12/183694/ (дата обращения: 15.11.2011).
78. Скороходько, Э. Ф. Семантические сети и автоматизированная обработка текста / Э.Ф.Скороходько. Киев: Наукова думка. 1983.- 217с.
79. Сокирко, A.B. Программная реализация русского общесемантического словаря. // НТИ. Сер 2. 1997.- N 12.-е 20-24.
80. Соколова, Е. Н. Алгоритмы лемматизации для русского языка. // Рабочий проект многоязычного автоматического словаря на 60 тыс. словарных статей. Т.1. Лингвистическое обеспечение. М. 1984. Стр. 45-62.
81. Справочно-информационный портал ГРАМОТА.РУ. Словари языка писателей и отдельных произведений. Электронный ресурс. URL: http://www.gramota.ru/slovari/types/17 23 (дата обращения: 27.12.2010).
82. Тарасов, В. Б. Логико-лингвистические модели в искусственном интеллекте: прошлое, настоящее, будущее// Политехнические чтения: Сб.тр. Вып. 7. Искусственный интеллект проблемы и перспективы / Политехи, музей. - М.: декабрь, 2006. -194с.
83. Технология автоматического анализа текстов, Microsystems, Ltd 2001. Электронный ресурс. URL: http://www.analyst.ru/index.php? lang=rus&dir=content/tech/&id=wp&left=content/tech/menu.txt (дата обращения: 24.12.2010).
84. Технологии компании ПРОМТ. Электронный ресурс. URL: http://www.promt.ru/ru/technology/promt/ (дата обращения: 24.12.2010).
85. Фрумкина, Р. М. Психолингвистика / Р. М. Фрумкина. М.: Академия, 2003. - 320с.
86. Фомичев, В. А. Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Часть I. Модель системы первичных единиц концептуального уровня. "Информационные технологии", 2002, № 10 (октябрь). С. 16-25.
87. Фомичев, В. А. Понятие текстообразующей системы как компонент нового формального аппарата для проектированиялингвистических процессоров // Теоретический и прикладной научно-технический журнал "Информационные технологии", 2005, № 8. С. 22-27.
88. Фомичев, В. А. Формализация проектирования лингвистических процессоров / В. А. Фомичев. М.: МАКС Пресс, 2005. - 368 с.
89. Харламов, А. А. // Открытые системы. СУБД : Журнал для профессионалов в области информационных технологий. 2002. - №10. - С. 62-65.
90. Холоденко, А. Б. О построении статистических языковых моделей для систем распознавания русской речи Электронный ресурс. URL: http://intsys.msu.ru/invest/speech/articles/ruslm.htm (дата обращения: 03.01.2012).
91. Хмелев, Д. Описание программы ЛингвоАнализатор Электронный ресурс. URL: http://www.rusf.ru/books/analysis/index.htm (дата обращения: 27.12.2010).
92. Шаров, С. А. Средства компьютерного представления лингвистической информации. Обзор Российский НИИ искусственного интеллекта, 1996. Электронный ресурс. URL: http://www.ksu.ru/eng/science/ittc/vol000/002/ (дата обращения: 24.12.2010).
93. Шемякин, Ю. И. Начала компьютерной лингвистики: Учеб. пособие / Ю. И. Шемякин. М.: Иэд-во МГОУ, А/О "Росвузнаука", 1992.
94. Энциклопедия КРУГОСВЕТ. Компьютерная лингвистика. Электронный ресурс. URL: http://www.krugosvet.ru/enc/ gumanitarnye nauki/lingvistika/KOMPYUTERNAYA LINGVISTIKA.html (дата обращения: 24.12.2010).
95. Энциклопедия КРУГОСВЕТ. Основные разделы и направления прикладной лингвистики. Электронный ресурс. URL:105. http://www.krugosvet.rU/articles/82/l008267/1008267a2.htm (дата обращения: 24.12.2010).
96. Ягунова, Е. В. Ключевые слова в исследовании текстов Н.В. Гоголя // Проблемы социо- и психолингвистики. Пермь, 2011.
97. Ягунова, Е. В. Тема и рема, данное и новое при восприятии текста // Компьютерная лингвистика и интеллектуальные технологии. Международная конференция «Диалог 2007». Труды конференции, г. Наро-Фоминск, 2007г.
98. Ягунова, Е. В. Эксперимент и вычисления в анализе ключевых слов художественного текста // Философия языка. Лингвистика. Лингводидактика № 1. Пермь, 2010. с.83-89.
99. Языкознание.ру. Компьютерная лингвистика. Электронный ресурс. URL: http://yazykoznanie.ru/contentyview/89/281/ (дата обращения: 27.12.2010).
100. Языкознание.ру. Типы лингвистических моделей. Электронный ресурс. URL: http://yazykoznanie.ru/content/view/77/266/ (дата обращения: 27.12.2010).
101. Bradford Paley W. Textarc Электронный ресурс. URL: http://www.textarc.org/ (дата обращения: 27.12.2010).
102. Fomichov, Vladimir A. Semantics-Oriented Natural Language Processing. Mathematical Models and Algorithms. 2010, XXVI, 328 p. 20 illus., Hardcover
103. Indiana University. Library Electronic Text Resource Service. Textual Analysis Computing Tools (TACT) Электронный ресурс. URL: http://www.indiana.edu/4etrs/help-services/QuickGuides/about-tact.html (дата обращения: 27.12.2010).
104. Kanevsky, D., Monkowsky, M., Sedivy, J. Large Vocabulary Speaker-Independent Continuous Speech Recognition in Russian Language // Proc. SPECOM'96. St.-Petersburg, October 28-31, 1996.
105. Hastie, Т., Tibshirani, R., Friedman, J. The Elements of Statistical Learning. — Springer, 2001.
106. Jurafsky, D., Martin James, H. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Prentice-Hall, 2000.
107. Manning, С., Schutze H. Foundations of Statistical Language processing. The MIT Press, 1999.
108. Nahm, U., Mooney, R. Mining soft-matching rules from textual data. WA, 2001.
109. Sebastiani, F.: Machine learning in automated text categorization, ACM Computing Surveys, vol. 34, pp. 1-47, 2002.
110. SRILM The SRI Language Modeling Toolkit. Электронный ресурс. http://www.speech.sri.com/projects/srilm (дата обращения: 02.06.2011).
111. GATE General Architecture for Text Engineering. Электронный ресурс. URL: http://gate.ac.uk (дата обращения: 02.06.2011).
112. LingPipe. Электронный ресурс. URL: http://alias-i.com/lingpipe/index.html (дата обращения: 02.06.2011).
113. UIMA Unstructured Information Management applications. Электронный ресурс. URL: http: //uima. apache. org (дата обращения: 02.06.2011).
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.