Методы и алгоритмы извлечения данных из словарных текстов: на примере Словаря русского языка XI - XVII вв. тема диссертации и автореферата по ВАК РФ 05.13.06, кандидат технических наук Дубашов, Алексей Евгеньевич

  • Дубашов, Алексей Евгеньевич
  • кандидат технических науккандидат технических наук
  • 2006, Москва
  • Специальность ВАК РФ05.13.06
  • Количество страниц 186
Дубашов, Алексей Евгеньевич. Методы и алгоритмы извлечения данных из словарных текстов: на примере Словаря русского языка XI - XVII вв.: дис. кандидат технических наук: 05.13.06 - Автоматизация и управление технологическими процессами и производствами (по отраслям). Москва. 2006. 186 с.

Оглавление диссертации кандидат технических наук Дубашов, Алексей Евгеньевич

Введение.

Глава 1. Анализ методов и систем лексикографической обработки текста.

1.1 Создание словаря.

1.2 Анализ методов лексикографической обработки текстов.

1.3 Анализ существующих систем лексикографической обработки текста.

1.4 Постановка задачи.

Выводы по первой главе.

Глава 2. Исследование частотных и динамических характеристик словарных текстов

2.1 Анализ использования источников.

2.2 Частотный анализ текста Словаря РЯ Х1-ХУП вв.

2.3 Получение статистического закона распределения слов в законе Ципфа и предсказание объема словаря.

2.4 Исследование динамики появления новых слов в тексте Словаря русского языка Х1-ХУП вв.

Выводы по второй главе.

Глава 3. Технология получения словарных материалов недостающих томов словаря

3.1 Магазинный автомат, распознающий структуру словарной статьи класса исторических словарей.

3.2 Разметка словарных текстов.

3.3 Формирование словарных статей.

Выводы по третьей главе.

Глава 4. Использование разработанного средства для получения электронной версии недостающих томов словаря

4.1 Система разметки словарных текстов и занесения их в структуры БД.

4.2 Система создания и ведения лексикографических картотек WinDialex.

4.3 Формирование словарных статей. Флотация.

4.4 Лексикографическая библиотека.

Выводы по четвертой главе.

Рекомендованный список диссертаций по специальности «Автоматизация и управление технологическими процессами и производствами (по отраслям)», 05.13.06 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы и алгоритмы извлечения данных из словарных текстов: на примере Словаря русского языка XI - XVII вв.»

Повсеместное использование информационных технологий привело к возникновению задач, при решении которых необходима обработка больших массивов информации, приведение ее к единой структуре, извлечение необходимых данных, автоматизация процессов формирования каталогов и архивов. Этот класс задач в целом называют извлечением данных [40] (в иностранной литературе[40] data mining). Лексикография не является исключением, поскольку занимается обработкой больших массивов текстов, их структуризацией, а также извлечением из них информации.

Институт русского языка им. В.В. Виноградова РАН с 1975 года издает Словарь русского языка (СлРЯ) XI - XVII вв., который на сегодняшний момент состоит из 27 томов. По своему типу это исторический словарь, цель которого состоит в том, чтобы наиболее полно представить лексику соответствующего временного периода.

В настоящее время это наиболее полный исторический словарь русского языка. Он используется в первую очередь учеными - филологами, изучающими историю русского языка по древним памятникам письменности, этимологами, специалистами по истории культуры, нуждающимися в профессиональном справочнике, и многими, кто интересуется историей употребления слов. Материалы СлРЯ легли в основу многих научных исследований [107,39].

Основную ценность, и сложность создания СлРЯ представляет цитатный материал, поскольку берется из древних источников, рукописей. Для получения цитатных материалов словаря лексикографу необходимо провести отбор источников, анализ текстов и отдельных словоупотреблений, составление словников и словоуказателей и т. д., что требует значительных затрат времени и труда: «Каждый памятник, изучаемый по рукописи, требует всестороннего исследования. Даже на этапе словоделения необходимо учитывать особенности графической системы рукописи, фонетические и морфологические явления, современные памятнику и более древние, которые могли сохраниться от протографа. Поскольку переписывание рукописей было многократным, графико-орфографическая система древнерусских рукописей не бывает простой и однозначной» [13, стр. 141]. Более детально о проблемах исследования текстов допечатной эпохи см. [2].

Работа над СлРЯ началась с создания "Картотеки древнерусского словаря" (Картотеки ДРС) [23] - огромного архива, где на рукописных карточках находятся выписки из памятников письменности русского языка XI-XVII вв. Временем зарождения Картотеки и СлРЯ считается 1925 год. А первый выпуск СлРЯ (буквы "А" и "Б") появился лишь через 50 лет в 1975 году. В 2005 году передан в печать 27-й выпуск (буква "С").

Таким образом, тома СлРЯ, к настоящему времени включают слова, начинающиеся с букв «А» - «С». Тома, включающие слова, начинающиеся с буквы «Т», отсутствуют. Основная проблема состоит в том, что цитатный материал на недостающие буквы словаря, имеющийся в картотеке, не обработан из-за недостаточности необходимых для этого ресурсов (материальных средств, кадров и др.). Работы по созданию томов, начинающихся с буквы «У», не производятся классическим путем уже с середины 80-х годов из-за недостатка ресурсов, идут поиски альтернативных путей получения словарных материалов этих томов. Поэтому создание новой технологии для получения материалов недостающих томов СлРЯ, является актуальной - это позволит продолжить издание неоценимого по своей значимости источника знаний о слове.

В настоящей диссертационной работе в качестве источника словарных материалов используются цитатные материалы изданных томов СлРЯ. Так как качество получаемого результата является первоочередным критерием, то словарный материал необходимо преобразовать в структурированный формат на машинном носителе, потому что работа напрямую с неструктурированным текстом СлРЯ увеличивает количество ошибок.

Существующие разработки, направленные на автоматизацию лексикографической деятельности (Dialex[47], Interlexfl 15], LemmaLex, MultiCon-cord, Фиеста (FIESTA - Fast Interactive Editor of Scripture and Text Analysis) Летнего института лингвистики, WordCruncher фирмы ETC ~ Electronic Text Corporation) предназначены, для автоматизации создания словарей из текстов цитатных источников (в качестве источника данных они используют текст). Другие системы, такие, как «УНИЛЕКС» [61], тоже предназначены для-создания словарей из источников, хотя имеют возможность импорта готового словаря. Однако эта задача является не основной, таким образом, качество выполнения разметки словарных статей и занесения в базу данных (далее БД) не устраивает.

Целью настоящей диссертационной работы является разработка методов и алгоритмов получения машинной версии будущих томов Словаря русского языка XI-XVII вв. на основе словарных материалов существующих печатных изданий его томов.

Для достижения поставленной цели в диссертации решаются следующие задачи:

1. Анализ существующих методов и систем лексикографической обработки текста в части извлечения информации из текста (Глава 1).

2. Анализ текста существующих томов словаря РЯ XI-XVII вв. с целью получения его количественных и частотных характеристик (Глава 2).

3. Исследование динамики появления новых слов в тексте словаря и прогноз получаемого словарного объема машинной версии словаря (Глава 2).

4. Разработка методики разметки словарных текстов для занесения полей словарных статей в структуры БД с целью ее последующей обработки (Глава 3).

5. Разработка метода получения машинной версии недостающих томов словаря (Глава 3).

6. Реализация распознавателя словаря в виде программного комплекса (Глава 4).

7. Реализация программного средства получения машинной версии словаря (Глава 4).

8. Реализация программного средства для проведения анализа текста словаря (Глава 4).

9. Разработка критериев оценки качества словаря и оценка получаемого словаря (Глава 3).

В работе был разработан программный комплекс, производящий разметку словарных статей и занесение их в базу данных, осуществляющий пополнение цитатного материала методом «флотации», а также реализующий наиболее общие лексикографические функции. Данный программный комплекс используется в Институте русского языка им. В.В. Виноградова РАН, а также в учебных целях в МГТУ им. Н.Э. Баумана на кафедре ИУ5.

В главе 1 «Анализ методов и систем лексикографической обработки текста» анализируются существующие методы извлечения информации из текста, рассматриваются известные методы обработки естественно языковых текстов, проводится анализ структуры словарной статьи, предлагается технология обработки СлРЯ для получения словарных материалов недостающих томов, проводится анализ существующих систем лексикографической обработки текстов применительно к задаче разметки текста словарной статьи, ставится задача для разработки технологии получения словарных материалов недостающих томов.

В главе 2 «Исследование частотных и динамических характеристик словарных текстов» представлены результаты частотного анализа текста СлРЯ Х1-ХУП вв. Проведен анализ динамики появления новых слов в тексте СлРЯ. Была предложена формула для расчета параметров закона Ципфа и оценена ее точность на эксперименте. Также были предложены формулы для прогноза словарного запаса текста и оценена их точность и произведено сравнение характеристик предложенных методов друг с другом и с методом, предложенным Ю.К. Орловым [86]. Произведен расчет количества заголовочных слов на букву «У», которое можно получить из 24 томов.

В главе 3 «Технология получения словарных материалов недостающих томов словаря» представлен результат разработки магазинного автомата для распознавания структуры словарной статьи класса исторических словарей. Описан метод распознавания последовательностей для распознавания полей словарной статьи, которые можно представить в виде словаря возможных вариантов. Представлена методика разметки словарных статей СлРЯ Х1-ХУП вв. Введено и обосновано понятие «флотации». Предложен метод формирования словарных статей для получения словарного материала недостающих томов словаря, предложен метод осуществления лемматизации (т.е. приведение к начальной форме) древнерусских слов, предложены критерии оценки качества словаря и проведена оценка качества получаемого словаря.

В главе 4 «Использование разработанного средства для получения словарных материалов недостающих томов словаря» дано описание разработанного программного обеспечения, рассмотрен процесс формирования словарных статей методом «флотации». Приводится описание реализации компонент программного комплекса.

В приложении приводится отрывок результата построения словарных материалов для тома СлРЯ на букву «У».

Алгоритмы извлечения данных из лексикографических текстов используют методы дискретной математики [26] (теорию формальных языков и грамматик), теорию реляционной алгебры, теорию вероятностей и математической статистики.

Похожие диссертационные работы по специальности «Автоматизация и управление технологическими процессами и производствами (по отраслям)», 05.13.06 шифр ВАК

Заключение диссертации по теме «Автоматизация и управление технологическими процессами и производствами (по отраслям)», Дубашов, Алексей Евгеньевич

Основные выводы и результаты работы:

1. В рамках диссертационной работы проведен анализ методов и систем обработки словарных текстов и выявлены наиболее эффективные методы соответствующие задачи разбора структуры СлРЯ XI-XVII вв.

2. Проведено исследование динамики пополнения словарного запаса текста СлРЯ Х1-ХУП вв. и выявлены характеристики закона появления новых слов. Предложены формулы для прогноза словарного запаса текста и оценена их точность.

3. Дан прогноз словарного запаса по всем буквам двух томов СлРЯ на основе одного тома. Произведен расчет количества заголовочных слов на букву «У», которое можно получить из 24 томов СлРЯ.

4. Предложена технология обработки словаря для получения словарных материалов томов СлРЯ Х1-ХУП вв., в рамках которой:

• Разработан магазинный автомат, распознающий структуру словарной статьи СЛРЯ Х1-ХУП вв.

• Представлена вероятностная марковская модель для распознавания полей при декомпозиции словарных статей и алгоритм ее реализации.

5. Предложено формальное описание и алгоритм автоматизированной реализации метода «флотации» для формирования словарных материалов.

6. Разработаны программные комплексы, реализующие следующие функции:

• извлечение структурированных словарных статей из предназначенных для человека словарных текстов и занесение их в структуры баз данных;

• получение словарного материала недостающих томов словаря методом «флотации» в форме, пригодной для дальнейшего его использования;

• лексикографическое исследование словарных и обычных текстов;

• создание и ведение лексикографических картотек.

Разработанный программный комплекс используется в научных исследованиях и в учебных целях в МГТУ им. Н.Э. Баумана на кафедре «Системы обработки информации и управления» (ИУ5) в рамках специальных дисциплин «Семиотика информационных технологий» и «Лингвистическое обеспечение АСОИУ».

Выводы и заключение

Разработаны автоматизированные методы разметки словарных статей, извлечения из словарных статей изданных томов словаря цитатных материалов и составления на их основе электронного конкорданса (картотеки), позволяющие значительно сократить время и трудозатраты на получение словарных материалов будущих томов СлРЯ, почти полностью освобождающие лексикографа от работы по поиску, обработке и подбору цитатного материала.

Список литературы диссертационного исследования кандидат технических наук Дубашов, Алексей Евгеньевич, 2006 год

1. Александров A.B. Технология автоматизированного создания базы данных Словаря русского языка X1.XVII вв. // Русская историческая лексикография на современном этапе. Отечественная лексикография / Под ред. Чернышевой. - М.: ИРЯ РАН, 2000. - С. 112 - 117.

2. Алексеев A.A. Кузнецова E.JI. ЭВМ и проблемы текстологии древнесла-вянских текстов // Лингвистические задачи и обработка данных на ЭВМ. -М.: ИРЯ АН СССР, 1987. С. 111-120.

3. Алексеев П.М. О нелинейных формулировках закона Ципфа // Вопросы кибернетики. Статистика речи и автоматический анализ текста / Под ред. Р.Г. Пиотровского (Москва-Ленинград). 1978. - Вып. 41 - С. 53-65.

4. Анализ метаязыка словаря с помощью ЭВМ / Ю. Н. Караулов, В. А. Молчанов, В. А. Афанасьев, Н. В. Михалев М., 1982. - 94 с.

5. Андрющенко В.М. Автоматизированная лексикографическая система UNILEX (основные проектные решения) // Вычислительная лингвистика. -М.: Изд-во МГУ, 1981. С 104-119.

6. Астахина Л.Ю. Картотека ДРС как база для лингвистических исследований // Историко-культурный аспект лексикографического описания русского языка. М.: ИРЯ РАН, Институт лингвистических исследований, 1995.-С. 21-45.

7. Ахо А., Сети Р., Ульман Д. Компиляторы. Принципы, технологии, инструменты. М.: Вильяме, 2001. - 767 с.

8. Ахо А., Хопкрофт Д., Ульман Д. Структура данных и алгоритмы. М.: Вильяме, 2000.-382 с.

9. Ахо А., Хопкрофт Д., Ульман Д. Построение и анализ вычислительных алгоритмов. М.: Мир, 1979. - 536 с.

10. А.Ахо, Дж.Ульман. Теория синтаксического анализа, перевода и компиляции.-Т. 1. -М.: Мир, 1978.-612 с.

11. A.Axo, Дж.Ульман. Теория синтаксического анализа, перевода и компиляции. Т. 2. - М.: Мир, 1978. - 487 с.

12. Базы и банки данных и знаний: Учеб. для вузов по спец. «Автоматизирован. системы обраб. информ. и упр.» / Г.И. Ревунков, Э.Н. Самохвалов,

13. B.В. Чистов / Под ред. В.Н. Четверикова. М.: Высшая школа, 1992. -367 с.

14. Бахтурина Р.В., Мошкович Ж.Г. Использование ЭВМ для исследования и подготовки к изданию древнерусских памятников // Лингвистические задачи и обработка данных на ЭВМ. М.: ИРЯ АН СССР, 1987. - С. 141 -156.

15. Бек Л. Введение в системное программирование. М.: Мир, 1988. - 448 с.

16. Белоногов Г.Г., Фролов Г.Д. Эмпирические данные о распределении букв в русской письменной речи // Проблемы кибернетики (М.). 1963. - Вып. 9.-С. 287-305.

17. Белоусов А.И., Ткачев С.Б. Дискретная математика: Учеб. для ВУЗов / Под ред. B.C. Зарубина, А.П. Крищенко. М.: Изд-во МГТУ им. Н.Э. Баумана, 2002.-744 с.

18. Богатова Г.А. Диахронический словарь в системе словарей исторического цикла // Теория и практика русской исторической лексикографии. Академия наук СССР Институт русского языка. М.: Изд-во Наука. 1984. - С. 37-47.

19. Богатова Г.А. Словарь русского языка XI-XVII вв. // Историко-культурный аспект лексикографического описания русского языка. М.: ИРЯ РАН, Институт лингвистических исследований, 1995. - С. 11-21.

20. Богатова Г.А. Словарь русского языка XI-XVII вв. к 25-летию издания // Русская историческая лексикография на современном этапе. Серия: Отечественная лексикография / Под ред. Чернышевой (М.). 2000. - Вып. 4.1. C. 15-20.

21. Братчиков И.Л. Синтаксис языков программирования. М.: Наука, 1975. -232 с.

22. Вайнгартен Ф. Трансляция языков программирования. -М.: Мир, 1977. -190 с.

23. Волкова JI.A., Решетникова Е.Р. Технология обработки текстовой информации: Учебное пособие. М.: Изд-во МГУП, 2002. - 306 с.

24. Восточнославянская историческая лексикография на современном этапе. К 75-летию Древнерусской рукописной картотеки XI-XVII вв. Серия Отечественная лексикография / Под ред. Астахиной Л.Ю. (М.). 2002. - Вып. 5.-255 с.

25. Гинзбург С. Математическая теория контекстно-свободных языков. М.: Мир, 1970.-328 с.

26. Гладкий A.B., Мельчук И.А. Элементы математической лингвистики. -М.: Изд-во Наука, 1969.- 192 с.

27. Горбатов В.А. Фундаментальные основы дискретной математики. Информационная математика. М.: Физматлит, 2000. - 544 с.

28. Горина Н.Л., Келер С.Н., Ткачева Т.В. Создание компьютерной формы древнеславянских рукописей // Материалы III всесоюзной конференции по созданию машинного фонда русского языка / Под ред. С.Ф. Гилязова, Ю.Н. Караулова-М.: ИРЯ АН СССР, 1990.-С. 89-95.

29. Григорьев Ю.А. Ревунков Г.И. Банки данных: Учебник для вузов. М.: Изд-во МГТУ им. Н.Э. Баумана, 2002. - 320 с.

30. Грис. Д. Конструирование компиляторов для цифровых вычислительных машин. М.: Мир, 1975. - 544 с.

31. Дейт К. Введение в системы баз данных. К., М., СПб.: Изд. дом Вильяме, 2000.- 1072 с.

32. Денисов П.Н. Практика, история и теория лексикографии в их единстве и взаимообусловленности. Проблемы учебной лексикографии и обучения лексике. Русский язык. М., 1978. - С. 25.

33. Дубашов А.Е. Библиотека лексикографической обработки текста. // Интеллектуальные технологии и системы. Сборник статей аспирантов и студентов / Сост. и ред. Ю.Н. Филиппович. М.: Изд-во МГУП, 2002. - Вып. 4.-С. 165-171.

34. Дубашов А.Е. Комплекс программных средств создания и ведения лексикографических картотек / Выпускная работа. МГТУ им. Н.Э. Баумана, каф. АСОИУ. Рук. Ю.Н.Филиппович. М., 1999. - 89 с.

35. Дубашов А.Е. Разметка словарных статей печатных словарей. Проблемы полиграфии и издательского дела. М.: Изд-во МГУП, 2006 - № 4. - С. 123 - 130.

36. Дюк В., Самойленко A. Data Mining : учебный курс. СПб: Питер, 2001. -368 с.

37. Ивченко Г.И., Медведев Ю.И. Математическая статистика. М.: Высшая школа, 1992. -248 с.

38. Инструкция для составителей Словаря Русского Языка XI-XVII вв. М.: ИРЯ АН СССР, 1988.-80 с.

39. Исаев И.А. Опыт автоматизации лексикографических исследований. Система DIALEX. Слово Достоевского. М., 1996. - С. 304.

40. Историко-культурный аспект лексикографического описания русского языка / Под ред. Богатовой Г.А. М.: Институт русского языка РАН, 1995. -248 с.

41. Историко-культурный аспект лексико-логического описания русского языка. Часть 1. -М.: ИРЯ АН СССР, 1991. 156 с.

42. Кадакин М.Ю. Определение угла наклона строк при распознавании текста. // Интеллектуальные технологии и системы. Сборник статей аспирантов и студентов / Под ред. Ю.Н. Филипповича (М.). 2005. - Вып. 5. - С. 239 - 249.

43. Калинина Е.А. Изучение лексико-статистических закономерностей на основе вероятностной модели // Статистика речи. Л., 1968, - С. 64-107.

44. Калинин В.М. Некоторые статистические законы математической лингвистики // Проблемы кибернетики (М.). 1964. - Вып. II. - С. 23 - 34.

45. Калинин В.М. Функционалы, связанные с распределением Пуассона и статистическая структура текста // Труды математического института им. Стеклова (М, Л.). 1965. - № ЪХХ1Х. - С. 74 - 81.

46. Караулов Ю.Н. Ассоциативная грамматика русского языка. М., 1993. -245 с.

47. Караулов Ю.Н. Лингвистическое конструирование и тезаурус литературного языка. М.: Наука, 1981. - 368 с.

48. Кнут Д. Искусство программирования. Основные алгоритмы. 3-е изд. (М.). 2000. - Том 1,- 720 с.

49. Кнут Д. Искусство программирования. Сортировка и поиск. 2-е изд. (М.). 2000,-Том 3.- 832 с.

50. Кобрин Р.Ю. Языковая система и типы источников машинного фонда русского языка // Вторая всесоюзная конференция по созданию машинного фонда русского языка (материалы конференции). М.: ИРЯ АН СССР, 1988.-С. 4-30.

51. Козлов А.Д., Крищенко В.А. Автоматическое извлечение информации из Интернет метапоисковым агентом // Новые электронные технологии: Материалы четвертого научно-практического семинара с участием стран СНГ.-М., 2001.-С. 201 -207.

52. Колобкова О.В. Частотные исследования Словаря русского языка Х1-ХУП вв. // Интеллектуальные технологии и системы / Под ред. Ю.Н. Филипповича (М.). 2004. - Вып. 6. - С. 143-150.

53. Колодяжная Л.И. Автоматизированная лексикографическая система УНИЛЕКС. Словарно-ориентированная подсистема / Под редакцией Н.В. Павлович. М.: Изд-во МГУ, 1987. - 116 с.

54. Колодяжная Л.И. Опыт создания машинной версии фрагмента словаря русского языка //Вторая всесоюзная конференция по созданию машинного фонда русского языка (материалы конференции). М.: ИР Я АН СССР, 1988.-С. 88-98.

55. Колодяжная Л.И. Принципы создания филологического словаря на персональном компьютере // Матер. III всес. конф. по созданию машинного фонда русского языка. М., 1990. - С. 17-29.

56. Крищенко В.А. Использование ЬЯ таблиц для разбора естественного языка // Исследовано в России: Электронный журнал. 2000. - Т. 67. -С. 948 - 945. - http://zhurnal.ape.relarn.ru/articles/2000/067.pdf

57. Крищенко В.А. Программное обеспечение для метапоиска информации в гипертекстовой среде. Автореф. дис.к-та техн. наук. М., 2002. - 20 с.

58. Крутикова О.Ф. Некоторые статистические оценки низкочастотных слов // Исследования по информации. М., 1968.

59. Лавошникова Э.К. Классификация ошибок при вводе словарей и текстов в ЭВМ и их предупреждение// Матер. III всес. конф. по созданию машинного фонда русского языка. М., 1990. - С. 67-75.

60. Лидовский В. Первичная машинная обработка текста: методика и проблематика. М: ИНИОН РАН, 1998.- 100 с.

61. Льюис Ф., Розенкранц Д., Стирнз Р. Теоретические основы проектирования компиляторов. М.: Мир, 1979. - 654 с.

62. Лютров К.Б. Применение баз данных с нечеткой структурой для построения словарей // Интеллектуальные технологии и системы. Сборник статейаспирантов и студентов /Под ред. Ю.Н. Филипповича (М.). 2001. - Вып. З.-С. 261-262.

63. Мандельброт Б. Теория информации и психолингвистика: теория частот слов // Математические методы в социальных науках. М., 1973. - С. 315 - 336. - Пер. ст.

64. Мандельброт Б. О рекуррентном кодировании, ограничивающем влияние помех // Теория передачи сообщений. М., 1957. - Пер. ст.

65. Марков А.А. Об одном применении статистического метода // Известия Имп. Акад. наук, серия VI. 1916. - Т. X, N4. - С. 239 - 242.

66. Марков А.А. Пример статистического исследования над текстом "Евгения Онегина" иллюстрирующий связь испытаний в цепь // Известия Имп. Акад. наук, серия VI. 1913. - Т. X, N3. - С. 153-162.

67. Мартыненко Б.К. Языки и трансляции. СПб.: Изд-во С.-Петербургского университета, 2004. - 229 с.

68. Мельчук И.А. Опыт разработки фрагмента системы понятий и терминов для морфологии (к формализации языка лингвистики) // Семиотика и информатика (М.). 1997. - Вып. 35. - С. 15 - 58.

69. Мерков А.Б. Основные методы, применяемые для распознавания рукописного текста. -http://www.recognition.mccme.ru/pub/RecognitionLab.html/methods.html

70. Милейковская Г.М. Рец. на Словарь русского языка Х1-ХУП вв. // 81ау1а Опе^аИв. 1985.- № 1-2.-С. 168-170.

71. Мошкович Ж.Г. Автоматизированная лексикографическая система Уни-лекс-2 / Под ред. Колодяжной Л.И. М.: Изд-во МГУ, 1989. - 107 с.

72. Мошкович Ж.Г. Проблема лемматизации при автоматизированной подготовке словарей и текстов // Матер. III всес. конф. по созданию машинного фонда русского языка. -М., 1990. С. 4-16.

73. Орлов Ю.К. Динамика ранговых распределений и проблемы статистики большого числа редких событий. Ценологические исследования / Ред. и сост. Б.И.Кудрин. Абакан: Центр системных исследований, 1996. - С. 79 -93.

74. Орлов Ю.К. Статистическое моделирование речевых потоков // Серия: Вопросы кибернетики. Статистика речи и автоматический анализ текста / Под ред. Р.Г. Пиотровского (Москва-Ленинград). 1978. - Вып. 41. - С. 66-99.

75. Остапенко В.Е. Распределение частот лексических единиц в тексте // Вопросы кибернетики. Статистика речи и автоматический анализ текста / Под ред. Р. Г. Пиотровского, О.М. Вейнерова, И.С. Кравцовой, Е.А. Шин-гаревой. М., Л.: 1978. - С. 45-52.

76. Пиотровский Р.Г. Статистика речи и автоматический анализ текста. Л.: Наука, 1980.-223 с.

77. Пиотровский Р.Г. Математическая лингвистика. М.: Высш. школа, 1977. -383 с.

78. Пиотровский Р.Г. Информационные измерения языка. JL: Наука, 1968. -116 с.

79. Пиотровский Р.Г. Эвристические возможности квантитативных методов при построении лингвистического автомата // Эвристические возможности квантитативных методов исследования языка. Смоленск: СГПИ, 1991.-С. 3-4.

80. Поликарпов A.A. Проблемы и перспективы автоматизации лексикологического и лексикографического анализа с помощью ЭВМ. // Использование ЭВМ в лингвистических исследованиях. Киев, 1989. - С. 167-186.

81. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982. -360 с.

82. Протченко И.Ф. Словари русского языка // Университет российской академии. М.: Издательство РОУ, 1996. - 34 с.

83. Роджерсон Д. Основы СОМ (2-е издание). М.: Изд-во Русская редакция, 2000.-400 с.

84. Рыжиков О.Г. Автоматизация разработки электронных версий словарей // Русская историческая лексикография на современном этапе. Серия Отечественная лексикография / Под ред. Чернышевой (М.). 2000. - Вып. 4. -С 120-126.

85. Сидоров Г.О. Лемматизация в автоматизированной системе построения словарей языка писателей // Слово Достоевского. Сборник статей / Под ред. Ю.Н.Караулова. М.: ИРЯ РАН, 1996. - С. 266-300.

86. Скрытые марковские модели http://leader.cs.msu.su/4ukyHMMrus.html

87. Словарь Русского Языка XI-XVII вв. (М.). 1976. - Вып. 3 (володонье - вящышша). - 288 с.

88. Солтон Г. Динамические библиотечные информационные системы. -М.: Наука, 1979.-С. 187-188.

89. Страуструп Б. Язык программирования С++. М., СПб.: Изд-во Невский диалект, 2001. - 1098 с.

90. Теория и практика русской исторической лексикографии. Академия наук СССР Институт русского языка. М.: Изд-во Наука, 1984. - 268 с.

91. Фостер Дж. Автоматический синтаксический анализ // Математическое обеспечение ЭВМ. -М.: Мир, 1975. 72 с.

92. Филиппович А.Ю. Информационно-поисковая система "Указатель источников" // Интеллектуальные технологии и системы. Сборник статей / Сост. и ред. Ю.Н.Филиппович (М.). 1999. - Вып. 2. - С. 230-240.

93. Филиппович А.Ю. Лингвистический редактор Andrew Tools 2000 // Scripta linguisticae applicatae. Проблемы прикладной лингвистики. Сборник статей. -М.: Азбуковник, 2001. С. 305-310.

94. Филиппович А.Ю. Практические занятия по курсам «Компьютерная лингвистика» и «Семиотика информационных технологий». // Интеллектуальные технологии и системы / Сост. и ред. Ю.Н.Филиппович (М.). -2004.-Вып. 6.-С. 281-311.

95. Филиппович Ю.Н., Прохоров А. Семантика информационных технологий: опыты словарно-тезаурусного описания // Серия: Компьютерная лингвистика. М.: МГУП, 2002. С. 36-41, 52, 117-237.

96. Филиппович Ю.Н., Филиппович А.Ю. Электронный указатель источников рукописной древнерусской картотеки Словаря русского языка XI-XVII вв. // Серия: Компьютерная лингвистика. М., 2002. С. 423.

97. Филиппович Ю.Н., Чернышева М.И. Историческая компьютерная лексикография terra incognita в компьютерном мире. Компьютера- 1999. -№ 45 - 7 с. - http://www.computerra.ru/offline/1999/323/3379/

98. Фомичев B.C. Формальные языки, грамматики и автоматы. -http://www.eltech.ru/misc/edu/sectionl/

99. Хант Дж. Вычислительная лингвистика в Летнем Институте Лингвистики // Вопросы языкознания. 1993. - № 6.

100. Хопкрофт Д., Мотвани Р., Ульман Д. Введение в теорию автоматов, языков и вычислений. М.: Вильяме, 2002. - 527 с.

101. Чернышева М.И. К вопросу о греческих и латинских оригиналах источников Словаря русского языка XI-XVII вв. // Историко-культурный аспект лексикографического описания русского языка. М.: ИРЯ РАН, Институт лингвистических исследований, 1995. - С.123-131.

102. Шаломова А.Н. Словарь русского языка XI-XVII вв.: проблемы и результаты. Автореф.дис.к-та фил. наук. М., 1996. - 30 с.

103. Шемакин Ю.И. Начала компьютерной лингвистики. М.: Изд.-во МГОУ АО Роснаука, 1992. - 113 с.

104. Щерба Л.В. Опыт общей теории лексикографии // Изв. АН СССР. Отд. лит. и яз. 1940. - № 3. - С.117.

105. Эллис М., Страуструп Б. Справочное руководство по языку программирования С++ с комментариями. М.: Мир, 1992. - 445 с.

106. Baum L.E. An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes // Inequalities. -1972.-Vol.3.-P. 1-8.

107. Bengio Y. Markovian Models for Sequential Data // Neural Computing Surveys. 1999. - No. 2. http://www.recognition.mccme.ru/pub/papers/HMM/VOL25ps.PS

108. Freitag D. and McCallum A.L. Information extraction using HMMs and shrinkage // Proceedings of the AAAI-99 Workshop on Machine Learning for1.formatino Extraction. 1999. - P. 1 - 6. -http://citeseer.ist.psu.edu/freitag99infonnation.html

109. Grimes R. Professional ATL COM Programming. Birmingham: Wrox Press Ltd., 1998.-703 p.

110. Herdan G. The Advanced Theory of Language as Choice of Chance. -Berlin : Springer-Verlag, 1966. 459 p.

111. Huang X. D., Ariki Y., Jack M. A. Hidden Markov Models for Speech Recognition. Edinburgh University Press, 1990. - 275 p.

112. ISO/EEC 15445:2000(E). International standard for HTML 4.0, which is a refinement of W3C's HTML 4.0 standard. https://www.cs.tcd.ie/15445/15445.HTML

113. Juell P., Marsh R. A hierarchical neural network for human face detection // Pattern Recognition. 1996. - Vol. 29. - P. 781-787.

114. Lin S.H., Kung S.-Y., Lin L.J. Face recognition/detection by probabilistic decision-based neural network // IEEE Transactions on Neural Networks. -1997.-Vol. 8.-P. 114-132.

115. Manning C. D., Schutze H. Foundations of Statistical Natural Language Processing. Cambridge: MIT Press, 1999. - 680 p.

116. Muller Ch. Some Resent Contributions to Statistical Linguistics // Statistical Methods in Linguistics. Skriptor, Stockholm, 1976.

117. Rabiner L., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proceedings of IEEE. 1989. - Vol.77, No.2. - P. 257-286. - http://wvvw.recognition.mccme.ru/pub/papers/HMM/rabiner.pdf

118. Rabiner L., Juang B.-H. Fundamentals of Speech Recognition. Prentice Hall, 1995.- 507 p.

119. Rich Text Format (RTF) Specification, version 1.6 http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dnrtfspec/html/rtfspec.asp

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.