Методика распознавания древнерусских скорописных текстов тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Зеленцов, Иван Анатольевич

  • Зеленцов, Иван Анатольевич
  • кандидат технических науккандидат технических наук
  • 2011, Москва
  • Специальность ВАК РФ05.13.17
  • Количество страниц 207
Зеленцов, Иван Анатольевич. Методика распознавания древнерусских скорописных текстов: дис. кандидат технических наук: 05.13.17 - Теоретические основы информатики. Москва. 2011. 207 с.

Оглавление диссертации кандидат технических наук Зеленцов, Иван Анатольевич

СПИСОК ТЕРМИНОВ И СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

1 Задача распознавания древнерусской скорописи.

1.1. Описание предметной области.

1.1.1 Древнерусская скоропись XVII в.

1.1.2 Распознавание скорописных текстов.

1.2 Постановка задачи исследования.

1.3 Методы распознавания текста.

1.3.1 Задача распознавания.

1.3.2 Методы, использующие Евклидово пространство.

1.3.3 Признаковые методы.

1.3.4 Структурные методы.

1.3.5 Методы трассировки изображений.

1.4 Обзор существующих средств распознавания.

1.5 Общие принципы предлагаемой методики распознавания.

1.5.1 Особенности и ограничения.

1.5.2 Подход к распознаванию.

1.5.3 Экспертный подход.

1.6 Выводы.

2 Методика распознавания.

2.1 Система экспертного распознавания.

2.1.1 Структура.

2.1.2 Схема функционирования.

2.2 Структурное описание объектов распознавания.

2.2.1 Описание структуры буквы.

2.2.2 Описание структуры слова.

2.3 База знаний.

2.3.1 Фреймовое представление знаний.

2.3.2 Структура базы знаний.

2.3.3 Общая схема построения фреймовых моделей.

2.3.4 Пространственные отношения.

2.3.5 Структурное описание букв.

2.3.6 Количественные характеристики базы знаний букв.

2.3.7 Структурное описание слов.

2.3.8 Количественные характеристики базы знаний слов.

2.4 Обучение системы.

2.4.1 Получение знаний о структуре букв.

2.4.2 Получение знаний о структуре слов.

2.5 Выводы.

3 Алгоритмы распознавания.

3.1 Трассировка изображений.

3.1.1 Постановка задачи.

3.1.2 Требования к модулю трассировки.

3.1.3 Использованный метод трассировки.

3.1.4 Поиск линий.

3.2 Абстрактный метод распознавания.

3.2.1 Виртуальный фрейм.

3.2.2 Гипотезы.

3.2.3 Характеристики гипотез.

3.2.4 Распознавание абстрактных образов.

3.3 Распознавание букв.

3.3.1 Весовые функции.

3.3.2 Правила согласования элементов букв.

3.3.3 Алгоритм распознавания букв.

3.4 Распознавание слов.

3.4.1 Весовые функции.

3.4.2 Правила согласования элементов слов.

3.4.3 Алгоритм распознавания слов.

3.5 Выводы.

4 Реализация и исследование компонентов системы распознавания.

4.1 Аспекты программной реализации.

4.1.1 Реализация базы знаний.

4.1.2 Реализация модулей распознавания.

4.1.3 Модуль обучения.

4.1.4 Модуль трассировки.

4.2 Исследование эффективности распознавания букв.

4.2.1 Методика исследования.

4.2.2 Анализ результатов.

4.3 Исследование эффективности распознавания слов.

4.3.1 Методика исследования.

4.3.2 Анализ результатов.

4.4 Исследование корректности распознавания.

4.5 Выводы.

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методика распознавания древнерусских скорописных текстов»

Актуальность исследования. В настоящее время исследователями русской письменности накоплено большое количество древнерусских рукописей различных временных периодов. Одним из классов таких документов являются скорописные тексты XVII века. Для обеспечения возможности компьютерного анализа, хранения и электронного переиздания этих документов требуется их перевод в электронный вид. Значительный объем задачи, а также весьма узкий круг специалистов, обладающих знаниями в сфере древнерусского языка, порождают необходимость в автоматизации данных процессов.

Сложность автоматизации получения электронных текстовых представлений скорописных рукописей обусловлена спецификой используемого в них языка и стиля письма, а также их ветхостью. Кроме того, круг носителей знаний о лексике русского языка XVII в. и способах письма, использовавшихся в этот период, ограничен в настоящий момент немногочисленной группой специалистов в области палеографии, исторического языкознания и филологии. Эти факторы затрудняют использование применительно к рассматриваемым документам существующих средств распознавания текста, ориентированных на современные языки и способы представления текстовой информации на бумажных носителях.

Таким образом, актуальной является задача разработки методики распознавания, учитывающей особенности скорописного способа формирования текста, применявшегося в России XVII в.

Целью исследования является разработка методики распознавания, позволяющей осуществлять автоматизированный перевод древнерусских скорописных текстов XVII в. из растровых изображений в вид электронных текстов.

Задачи исследования:

1. изучение особенностей древнерусской скорописи XVII в.;

2. анализ существующих методов распознавания;

3. разработка подхода к решению задачи распознавания скорописи;

4. разработка способа структурного описания объектов распознавания и метода их формального представления;

5. разработка алгоритмов распознавания;

6. теоретическое и практическое исследование предложенных алгоритмов.

Объектом исследования является древнерусский скорописный текст XVII в. с точки зрения его компьютерного распознавания.

Предметом исследования выступает методика распознавания скорописных текстов XVII в.

Научная новизна исследования обуславливается следующими полученными в диссертационном исследовании результатами:

1. Предложена методика распознавания древнерусской скорописи XVII в.;

2. Предложен подход к распознаванию древнерусских скорописных текстов XVII в., основанный на реконструкции начертаний символов текста с использованием экспертных палеографических знаний на этапе обучения и управляемый двухуровневой интерактивной архитектурой «буква-слово» проверки гипотез на этапе распознавания;

3. Предложен способ описания структур букв и слов, а также метод представления их структурных описаний на основе фреймовых сетей, отличающийся рекурсивностью описаний объектов различных структурных уровней и совместным использованием структурных элементов в описаниях схожих объектов.

4. Разработаны алгоритмы распознавания букв и слов скорописи путём выдвижения и проверки гипотез относительно распознаваемых объектов. Отличительными особенностями алгоритмов являются применение динамических фреймовых структур для описания распознанных фрагментов изображения и представление гипотез в виде схем согласования динамических фреймов с фреймами базы знаний.

Методы исследования. В работе использованы методы теории множеств, дескриптивной логики, комбинаторики, нечёткой логики. При решении практических задач использован объектно-ориентированный подход к построению программных систем.

На защиту выносятся научные положения, составляющие научную новизну исследования.

Достоверность и обоснованность научных положений обеспечивается корректностью применения математического аппарата при построении и исследовании моделей и алгоритмов, а также подтверждается результатами экспериментальных исследований предложенных алгоритмов. Предложенная методика апробирована на конференциях и в научных публикациях.

Практическая значимость. Диссертационное исследование направлено на развитие технических средств, используемых в культурно значимых исследованиях памятников письменности. Предложенная в работе методика может быть использована при построении систем автоматизированного перевода имеющихся фондов скорописных документов в электронное текстовое представление. Подобные программные средства предназначаются для научных сотрудников, проводящих лингвистические исследования древних документов данного вида, а также для специалистов, участвующих в создании электронных хранилищ памятников письменности и подготовке их мультимедийных электронных изданий.

Практическая ценность. Использование компьютерных программных средств, построенных на основе предложенной методики распознавания, позволит сократить затраты времени на получение электронных текстовых версии документов за счёт замены этапа ручного ввода автоматизированным распознаванием. Наличие электронных текстов версий скорописных документов делает доступным применение к ним всевозможных компьютерных технологий по обработке и анализу текста.

Внедрение результатов работы. Материалы проведенного исследования были использованы: в учебном процессе кафедры Систем обработки информации и управления МГТУ им. Н.Э.Баумана, при чтении лекций и курсовом проектировании по дисциплине «Лингвистическое обеспечение АСОИУ»; в учебном процессе кафедры Медиасистем и технологий МГУП им. Ивана Федорова в заданиях производственной практики; в научном исследовании по гранту Президента РФ для государственной поддержки молодых российских ученых - кандидатов наук МК-3732.2010.9 «Разработка словарных компонентов интегрированной информационной технологии переиздания печатных источников XVIII - нач. XIX вв».

Апробация работы. Основные результаты диссертационной работы докладывались на заседаниях комиссии по аттестации аспирантов кафедры «Системы обработки информации и управления» МГТУ им. Н.Э. Баумана в 2009-2011 гг. Материалы работы были также представлены на следующих научных конференциях и семинарах: Научной школе для молодых учёных «Компьютерная графика и математическое моделирование (Visual Computing)» (г. Москва, 2009); Научной межвузовской конференции преподавателей, аспирантов, молодых учёных и специалистов «Печатные средства информации в современном обществе» (г.Москва, 2010); Международной научной конференции «Информационные технологии и письменное наследие El'Manuscript-10» (г. Уфа, 2010); Научно-методических семинарах НОК CLAIM на кафедре «Системы обработки информации и управления» МГТУ им. Н.Э. Баумана (г.Москва, 2008-2010); Научно-технической международной молодежной конференции «Системы, методы, техника и технологии обработки медиаконтента» (г. Москва, 2011).

Публикации по теме диссертации. Основные результаты по теме диссертации опубликованы в 5-и печатных работах, в том числе 1 - в журнале, включённом в перечень ВАК РФ.

Объём и структура работы. Диссертация состоит и списка терминов и сокращений, введения, четырёх глав, заключения, списка использованных источников из 97 наименований и 5 приложений. Основной текст изложен на 174 страницах, включающих 45 рисунков и 14 таблиц. Приложения выполнены на 33 страницах.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Заключение диссертации по теме «Теоретические основы информатики», Зеленцов, Иван Анатольевич

4.5 Выводы

На основании результатов, описанных в данной главе, можно сделать следующие выводы:

1. Полученные практические измерения временных затрат исследуемых алгоритмов не превышают установленных теоретических предельных оценок.

2. Установленный теоретически характер зависимостей показателей эффективности алгоритмов от содержания базы знаний подтверждается практическими результатами.

3. Наличие правильной предварительной гипотезы значительно повышает вероятность правильного распознавания букв.

4. Способ трассировки изображений нуждается в уточнении в рамках предложенной методики; возможно, требуется применение других методов анализа изображений.

5. Эксперименты по распознаванию слов с эмуляцией модуля распознавания букв показывают полную пригодность разработанного алгоритма к решению данной задачи.

ЗАКЛЮЧЕНИЕ

В процессе диссертационного исследования получены следующие результаты:

1. Впервые в качестве объекта исследования с точки зрения его компьютерного распознавания рассмотрена древнерусская скоропись XVII в. Проведён анализ скорописных документов XVII в. «Отводных книг Онежского крестного монастыря» [39], выявлены особенности, имеющие значение для построения методики их распознавания.

2. Проведен анализ существующих методов и систем оптического распознавания текста с целью возможного применения их для распознавания скорописных документов XVII в. Обоснована необходимость разработки нового подхода, способа, алгоритмов и программных систем для их распознавания.

3. Предложен новый структурный подход к распознаванию скорописных документов, основными принципами которого являются:

• реконструкция начертаний рукописных символов путём трассировки их изображений;

• использование экспертных палеографических знаний при обучении системы;

• управление распознаванием механизмом выдвижения и проверки гипотез в двухуровневом контексте «буква-слово»;

• интерактивность процесса распознавания.

4. Предложен способ структурного описания начертаний букв и слов и способ представления таких описаний в базе знаний системы распознавания, учитывающий особенности предложенного подхода к распознаванию;

5. Разработаны алгоритмы распознавания букв и слов скорописи, опирающиеся на предложенную схему построения баз знаний. Проведено теоретическое и практическое исследование их эффективности и корректности;

6. Установлены и подтверждены характеристики вычислительной сложности алгоритмов. Установлены зависимости времени выполнения алгоритмов от характеристик содержимого баз знаний. Получены экспериментальные оценки среднего времени распознавания одной буквы (134 мс.) и страницы текста (53,6 е.). Получены экспериментальные оценки точности распознавания: 70-90% с указанием правильной предварительной гипотезы и 60-80% без указания предварительной гипотезы.

7. Предложена методика распознавания скорописи XVII в., позволяющая разрабатывать системы автоматизированного распознавания скорописных документов.

Рекомендации для дальнейших исследований. На основании полученного результата применения метода трассировки, использующего истончение линий, можно рекомендовать исследование применения других методик трассировки. Целесообразным является более интенсивное использование морфологической и структурной информации о содержащихся на изображении штрихах, составляющих символы.

Полученный результат, показывающий важность для распознавания наличия правильной предварительной гипотезы, позволяет утверждать целесообразность увеличение числа уровней архитектуры распознавания. В предложенном подходе наиболее крупным объектом распознавания является слово. Предварительные гипотезы в данный контекст распознавания не передаются. Дополнительный контекст, к примеру, предложений, позволил бы осуществлять распознавание слов также под управлением предварительной гипотезы. Целесообразным для выбора правильных гипотез является использование при распознавании слов такой информации, как частотности букв, их сочетаний, слов скорописной лексики.

Список литературы диссертационного исследования кандидат технических наук Зеленцов, Иван Анатольевич, 2011 год

1. Анисимов Б. В., Курганов В. Ф., Злобин В. К. Распознавание и цифровая обработка изображений: Учеб. пособие для студентов вузов. М.:Высш.шк., 1983.295 с.

2. Астахина Л.Ю. Слово и его источники. Русская историческая лексикология: источниковедческий аспект. М.: МГУП, 2006. 368 с.

3. Вершинина В. В. Метод и алгоритмы анализа контурных изображений в визуальных информационных системах на основе неоднородной нечёткой семантической сети: Автореф. дис. . канд. техн. наук: 05.13.01. Рыбинск, 2004. 18 с.

4. Гелецян Д. Векторизация растровых изображений // Интеллектуальные технологии и системы: Сборник статей аспирантов и студентов. М.: МГТУ, 1998. № 3. URL: http://www.philippovich.ru/Library/Books/ITS/ wwwbook/3sb/geletcyan.htm дата обращения: 05.10.2011)

5. Горошкин А. Н. Обработка и распознавание рукописного текста в системах электронного документооборота. Автореф. дис. . канд. техн. наук: 05.13.01. Красноярск, 2008. 22 с.

6. И.Зеленцов И. А. Выдвижение и проверка гипотез в системе распознавания древнерусской скорописи // Информационные технологии и письменное наследие: Материалы междунар. науч. конф. Уфа Ижевск, 2010. С. 99-101.

7. М.:Радио и связь , 1986. 400 с. 21.Патрик Э. Основы теории распознавания образов. Пер. с . англ. М.:Советское радио,1980. 407 с.

8. Поцепаев Р. Б. Восстановление траекторий написания символов по их изображениям. // Исследовано в России: Электронный журнал. МФТИ, 2003. URL: http://zhurnal.gpi.ru/articles/2003/120.pdf (дата обращения: 05.10.2011).

9. Прикладные нечеткие системы / Под ред.Т.Тэрано, К.Асаи. М.:Мир, 1993. 368 с.

10. Распознавание образов. Исследование живых и автоматических распознающих систем. Пер.с англ. Л.И. Титомир / Под ред. Paul А. Kolers и Murray Eden. М.:Мир,1970. 287 с.

11. Рейер И., Петровцева М. Язык гранично-скелетного представления бинарных изображений // Graphicon 2003: Материалы междунар. конференции. М., 2003. 7 с.

12. Ту Д., Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978. 484 с.

13. ЪЬ.Уоссермен Ф. Нейрокомпьютерная техника: теория и практика. Пер. с англ.1. М.:Мир, 1992. 184 с.

14. Ъ1.Файн В. С. Опознавание изображений. М.: Наука, 1970. 297 с.

15. Филиппович Ю.Н., Зеленцов И. А. Распознавание скорописи XVII века // Проблемы полиграфии и издательского дела. М., 2011. №3, С. 87-97.41 .Форсайт Д., ПонсЖ. Компьютерное зрение. Современный подход. Вильяме, 2004. 928 с.

16. Фу К. Структурные методы в распознавании образов. М.: Мир, 1977. 320 с.

17. Фурман Я.А., Юрьев А.Н., Яншин В.В. Цифровые методы обработки и распознавания бинарных изображений Красноярск :Изд-во Красноярского университета, 1992. 248 с.

18. Хант Э. Искусственный интеллект. М.: Мир, 1978. 558 с.

19. Черепнин Л. В. Русская палеография. М.: Изд-во политической литературы, 1956.616 с.

20. Abelson R. The reasoner and the inferencer don't talk much to each other // Proceedings of Theoretical issues in natural language processing. Cambridge, 1975. 5 c. URL: http://acl.ldc.upenn.edU/T/T75/T75-1002.pdf (дата обращения: 05.10.2011).

21. BlockH., NilssonN., DudaH. Determination and detection of features in patterns // Computers and Information Sciences. Baltimore, 1964. C. 75-110.

22. Ы.Випке H., Wang P.E. Handbook of Character Recognition and Document Image Analysis Singapore: World Scientific Publ. Co., 1997. 839 c.

23. Cao R., Tan C. Line primitive extraction by interpretation of line continuation // School of Computing, National University of Singapore. Singapore, 2008. URL: http://www.comp.nus.edu.sg/tancl/Papers/caorn/icarcv002cao.pdf (датаобращения: 05.10.2011).

24. Chang N., Narayanan S., Petruck M. From Frames to Inference // In Proceedings of the First International Workshop on Scalable Natural Language Understanding. 2002. URL: http://smartkom.dfki.de/Vortraege/icsi-ai4.pdf (дата обращения: 05.10.2011).

25. Charniak E. With a spoon in hand this must be the eating frame // Proceedings of Theoretical issues in natural language processing. Cambridge, 1978. 7 c. URL: http://acl.ldc.upenn.edU/T/T78/T78-1027.pdf (дата обращения: 05.10.2011).

26. Dickinso, I. Jena Ontology API. 2004. URL: http://jena.sourceforge.net/ontology/ index.html (дата обращения: 05.10.2011).

27. Freeman H. On the encoding of arbitrary geometric configurations // IEEE Trans. Electron. Comput. 1961. T. 10. C. 260-268.

28. GonzalezR.C., Woods R.E. Digital Image Processing. Prentice Hall, 2002. 793 c.

29. Hilaire X., Tombre К. Robust and accurate vectorization of line drawings // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2006. T. 28. C. 89090410 .Janss en R., Vossepoel A. Adaptive vectorization of line drawing images

30. Kegl B. Principal Curves: Learning, Design, and Applications: PhD Dissertation.

31. URL:http://www.w3.org/TR/owl-ref (дата обращения: 05.10.2011). 83 .Pantofaru С. A Comparison of Image Segmentation Algorithms. Carnegie Mellon

32. University, 2005. 31 c. M.Pervouchine V., Leedham G. Document examiner feature extraction:Thinned vs. skeletonised handwriting images. 2008. URL:http://www.ntu.edu.sg/sce/labs/forse/PDF/docExaml 2.pdf (дата обращения: 05.10.2011).

33. Petruck M. Frame Semantics // Handbook of Pragmatics. John Benjamins, 1996. C. 1-13.

34. Prudhommeaux E. SPARQL Query Language for RDF // World Wide Web Consortium, 2008. URL: http://www.w3.org/TR/rdf-sparql-query (дата обращения: 05.10.2011).

35. Steinherz Т., Intrator N., Rivlin E. A special skeletonization algorithm for cursive words. 2000. URL: http://unipen.nici.kun.nl/7th.iwfhr.2000/proceedings/ postscript/poster-018-steinherz.ps (дата обращения: 05.10.2011).

36. Talko В. Extracting stroke information off-line for cursive handwriting recognition. 1995. URL: http://www.cs.mu.oz.au/talko/ honoursreport.ps.gz (дата обращения: 05.10.2011).

37. Тау Y.H. Offline cursive handwriting recognition system based on hybrid Markov model and neural networks / Y.H. Тау и др. // IEEE Internatinional Symposium on Coputational Intelligence in Robotics and Automation. 2003. T. 3. C.l 190-1195.

38. Yanikoglu В., Sandon P. Off-line Cursive Handwriting Recognition Using Style Parameters: Technical report // Department of Mathematics and Computer Science, Dartmouth College, 1993. 21c.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.