Математические модели, методы и алгоритмы дешифровки исторических стенограмм тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Скабин, Артём Викторович

  • Скабин, Артём Викторович
  • кандидат науккандидат наук
  • 2013, Петрозаводск
  • Специальность ВАК РФ05.13.18
  • Количество страниц 101
Скабин, Артём Викторович. Математические модели, методы и алгоритмы дешифровки исторических стенограмм: дис. кандидат наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Петрозаводск. 2013. 101 с.

Оглавление диссертации кандидат наук Скабин, Артём Викторович

Оглавление

ВВЕДЕНИЕ

Глава 1. Извлечение информации из документов

1.1 Методы бинаризации изображений

1.1.1. Метод Отсу

1.1.2 Метод Бернсена

1.1.3 Метод Эйквеля

1.1.4 Метод Ниблэка

1.1.5 Пороговые методы бинаризации

1.1.6 Метод ISODATA

1.1.7 Метод Kapur

1.1.8 Метод Cheng-Chen

1.1.9 Метод основанный на яркостной характеристике

1.1.10 Результаты сравнения методов

1.1.11. Алгоритм выбора метода бинаризации

1.2 Методы обработки изображений

1.3 Связные области бинарного изображения

1.3.1 Метод «Лесного пожара»

1.3.2. Двухпроходный алгоритм

1.3.3 Пороговая и мультипороговая сегментация

1.3.4 Методы слияния, разбиения связных областей

1.4 Поиск схожих символов

1.5 Модуль получения оригинальной графики символов

Глава 2. Дешифровка стенограмм

2.1 Основные подходы к распознаванию символов

2.1.1 Соответствие шаблону

2.1.2 Статистические методы

2.1.3 Структурные методы

2.1.4 Нейронные сети

2.2 Построение строк рукописного документа

2.2.1 Алгоритм распознавания строк методом ближайшего соседа

2.2.2 Алгоритм распознавания строк методом построения графа связей

2.3 Алгоритм распознавания подстрочных и надстрочных символов

2.4 Математическая модель дешифровки стенограмм

2.4.1 Оценка первого слагаемого математической модели

2.4.2 Оценка второго слагаемого математической модели

2.5 Реализация математической модели в информационной системе

2.6 Апробация математической модели дешифровки символов

Глава 3. Информационная система дешифровки исторических стенограмм

3.1 Основные требования к разрабатываемой системе

3.2 Функциональные требования

3.2.1 Описание функции «Дешифровать стенограмму»

3.2.2 Описание функции «Обработать документ»

3.2.3 Описание функции «Выделить символы»

3.2.4 Описание функции «Распознать документ»

3.3 Потоки данных

3.3.1 Потоки данных функции «Распознать стенограмму»

3.3.2 Потоки данных функции «Обработать документ»

3.3.3 Потоки данных функции «Распознать документ»

3.4 ЕЯ-модель

3.5 Реляционная модель

3.6 Архитектура системы

3.7 Спецификация функций

3.8 Описание интерфейса системы

Заключение

Литература

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Математические модели, методы и алгоритмы дешифровки исторических стенограмм»

ВВЕДЕНИЕ

Актуальность темы исследования, новизна и цели работы

Распознавание рукописных текстов востребованы в различных областях человеческой деятельности. Многие компьютерные фирмы разрабатывают программы, которые решили бы эту задачу. Большой вклад в развитие оптического распознавания символов внесли ученые В. В. Александров, В. Анисимов, В. Л. Арлазаров, Н. Д. Горский. Дешифровка стенограмм, частного случая рукописного текста, является актуальной задачей, в результатах которой заинтересованы, прежде всего, филологи и историки. Существующие системы оптического распознавания (ABBYY FineReader [1], CuneiForm [2], Google Tesseract [3]) ориентированы на распознавание современных языков и печатных текстов, что делает невозможным их применение к историческим стенографическим записям. Исходными данными для таких систем являются документы хорошего качества, как первоисточник (страницы рукописей, четкие, контрастные снимки, с четко разделенным фоном и символами), так и хорошего написания (строки прямые, без искривлений, отсутствие исправлений и зачеркиваний).

В архивах России находится большое количество не дешифрованных исторических рукописных стенограмм, это связанно с тем, что на сегодняшний момент не осталось специалистов, обладающих знаниями о стенографических системах. Стенографист в записи мог использовать уникальные символы, не встречающиеся в стенографической системе, так как дешифровкой будет заниматься он сам.

Дешифровка подобных документов, позволит внести в научный оборот новые исторические источники информации. Применение информационных технологий и математического моделирования позволяет автоматизировать процесс дешифровки исторических рукописных стенограмм.

Таким образом, задачи, рассматриваемые в данном диссертационном исследовании, остаются актуальными.

Степень разработанности темы исследования.

Несмотря на активные разработки в данной области, существующие информационные системы распознавания позволяют распознавать только небольшие фрагменты текстов, например, подпись, банковские чеки.

Цель работы: получение дешифрованного текста на русском языке из исторических рукописных стенограмм.

Для достижения поставленной цели необходимо решить следующие задачи:

1. провести анализ существующих информационных систем оптического распознавания символов;

2. разработать метод бинаризации документов низкого качества (пожелтевшая бумага, текст написан простым карандашом) для получения наиболее четкого и с наименьшим количеством шумов изображения;

3. разработать алгоритм построения строк рукописного документа, выявления надстрочных и подстрочных символов;

4. разработать алгоритм поиска схожих символов;

5. построить математическую модель дешифрования символов;

6. разработать численный метод определения параметров математической

модели;

7. реализовать разработанные алгоритмы в компьютерной системе.

Научная новизна'.

1. описан алгоритм подбора наилучшего метода бинаризации исторических рукописных документов;

2. предложен пороговый метод, основанный на яркостной характеристике с плавающим порогом;

3. разработана математическая модель дешифровки рукописных стенографических документов.

Методология и методы исследования: Использованы методы теории вероятностей, математической и прикладной статистики, численные методы кластерного анализа, вычислительной геометрии и обработки изображений.

Положения, выносимые на защиту:

1. алгоритм выбора метода бинаризации рукописных исторических документов плохого качества с использованием сравнения методов на контрольной выборке;

2. математическая модель дешифровки стенографических документов, содержащая информацию как о форме и месте символов, так и извлеченную из текстов автора;

3. численные методы определения параметров математической модели, позволяющие их рассчитывать на основе информации об используемой стенографической системе и расшифрованных стенограммах;

4. программный комплекс (ИС Шв!*^), реализующий предложенный метод выбора бинаризации стенографического документа и использующийся для построения алфавита стенографического текста и дальнейшей дешифровки стенограммы.

Теоретическая и практическая значимость.

Предложенные методы, математическая модель и алгоритмы могут быть использованы для обработки и дешифровки исторических рукописных документов, в том числе на малоиспользуемых и «мёртвых» языках и стенографических записях, которые сделаны в неиспользуемых стенографических системах.

Степень достоверности

Достоверность результатов проведенных исследований подтверждена проведением исследований рукописных стенографических записей Сниткиной (До-

стоевской) Анны Григорьевны — наброски к «Дневнику Писателя» за 1881 г. и «Из воспоминаний А. Г. Достоевской».

Апробация работы

Результаты диссертационного исследования были представлены на следующих конференциях:

1. V Международная научная конференция «Компьютерные технологии и математические методы в исторических исследованиях» (Петрозаводск, 2013);

2. VII Международная научно-практическая конференция «Информационная среда Вуза XXI века» (Петрозаводск, 2013);

3. XIV Всероссийская научная конференция «Электронные библиотеки: Перспективные методы и технологии, электронные коллекции RCDL'2012» (Переславль-Залесский, 2012);

4. Всероссийская научная конференция «Анализ изображений, сетей и текстов АИСТ'12» (Екатеринбург, 2012);

5. IV Международная научная конференция «Информационные технологии и письменное наследие El'Manuscript-2012» (Петрозаводск, 2012);

6. VI Международная научно-практическая конференция «Информационная среда Вуза XXI века» (Куопио, Финляндия, 2012);

7. V Международная научно-практическая конференция «Информационная среда ВУЗа XXI века» (Петрозаводск, 2011);

8. Международная конференция «Компьютерные технологии и математические методы в исторических исследованиях» (Петрозаводск, 2011);

9. XIV Всероссийская конференция «Интернет и современное общество» (Санкт-Петербург, 2011).

Проведенные исследования производились в рамках гранта Российского гуманитарного научного фонда на тему «Автоматизированная система распозна-

вания и дешифровки стенограмм XIX - начало XX вв.» № 11-01-12026 (руководитель Рогов А.А.). Программы для ЭВМ, входящие в состав программного комплекса, были зарегистрированы в Объединённом фонде электронных ресурсов «Наука и образование» (ОФЭРНиО) № 19509 от 23.09.2013.

Оптическое распознавание текста

Распознавание образов является одним из бурноразвивающимся направлением в связи с развитием информационных технологий, как аппаратных, так и программных средств. Выделяют два основных направления распознавания образов [4]:

- Изучение способностей живых существ к распознаванию, объяснение и моделирование данных способностей;

- Создание методов, развитие теории, для создания устройств, предназначенных для решения задач в прикладных целях.

Второе направление получило большое развитие в информационных технологиях, это связано с большим количеством прикладных задач, ориентированных на распознавание образов. Основные методологии распознавания и обработки изображений описаны Мантасом [5]. Данное направление распознавания образов включает в себя обширную область прикладных задач, таких как: распознавание текстов - рукописных [6, 7, 8], рукопечатных [9, 10, 11, 12], печатных [13, 14, 15, 16], как например распознавания цифровых почтовых кодов [17], обработка изображений [18], в том числе и распознавания различных объектов на изображении, например детектирование лиц на изображении [19, 20, 21], автомобильных номеров [22], дорожных знаков [23], распознавание речи [24, 25] и т.д. и т.п. Одним основных направлений распознавания образов стало распознавание текста (optical character recognition,OCR), на ранних этапах задача оптического распознавания была связанна с двумя направлениями [26]: расширение возможностей телеграфа, а так же создание устройств чтения для слепых. Но в дальнейшем возникли проблемы автоматического и автоматизированной обработки текстовой информации. Текст может быть следующего вида: печатный, рукописный, рукопечатный

(текст написанный «от руки» печатными буквами). В зависимости от типа текста, для его распознавания применяются различные методы распознавания. Существует два типа [27] систем оптического распознавания текста (optical character recognition,OCR): - offline системы — системы, которые работают с оцифрованной информацией (отсканированные документы, распечатанный текст и т.п.). Основные методы для offline описаны Суеном [28], Говинданом и Шивапрасадом [29], Стеинхерзом [30], Алессандро [31], Коерич [32], Бортолози [33]. На сегодняшний момент большая часть исследований и разработок, связанное с offline распознаванием, ориентированно на печатные тексты или же на рукопечатные [34], проблема рукописных текстов является трудноразрешимой [35]; - online системы — системы, в которых распознавание основано на динамики написания символов. Online распознание текста [36] стало одним из популярных направлений распознавания текста, описано в [37, 38]. Это связано с появлением большого количества устройств, с сенсорным способом ввода. Данные системы ориентированные на рукописный текст (Graffiti PalmOS и т.д.).

Существует большое количество программных средств, реализующих OCR. Среди систем, поддерживающих русский язык, можно выделить «ABBYY FineReader» [1], «CuneiForm» [2], «Google Tesseract» [3] и другие. Данные системы являются offline системами распознавания текста, ориентированные на печатный и рукопечатный текст. Значительный вклад в развитие оптического распознавания символов внесли: В. В. Александров, Б. В. Анисимов, В. JI. Арлазаров, Н. Д. Горский.

Александров Виктор Васильевич и Горский Николай Дмитриевич, в своих трудах рассматривают проблему обработки изображений [39, 40]. В исследование проблемы offline распознавания текста внёс вклад Арлазаров Владимир Львович [41, 42, 43, 44] под его руководством были разработаны системы OCR, включая «CuneiForm».

Основные проблемы, которые возникают при распознавания текстов:

- Плохого качества исходный материал;

- Искажения при оцифровке, в том числе поворот изображения и строк;

- Зачеркивание и исправление;

- Схожее написание символов, например «о» и «О»

Для качественного распознавания документов, необходимо хорошего качества исходные материалы, высокой четкости с отсутствием каких-либо искажений, шумов и т.п. Но некоторые документы находятся в плачевном состоянии, когда стандартными средствами оцифровки (сканирование, фотографирование) не достичь необходимого качества. Тогда для оцифровки могут быть использованы различные методы и способы, которые существенно облегчат дальнейшую обработку изображения [45] Человеческий глаз может воспринимать на длины волн от 400-700 нм. в то время как более хорошие результаты оцифровки получаются вне данного диапазона: ультрафиолетовый, ультрафиолетовая люминесценция, инфракрасный. Благодаря такой оцифровки не нужна бинаризация или сегментация, которые часто является невозможной задачей [46] для низкоконтрастностной, поврежденной или частично тусклой рукописи [47] В системах OCR возникает проблема с искажением исходного материала при оцифровки. Некоторые из систем успешно борются с искажениями, характерными для сканированных печатных документов: поворот, масштабирование и другие геометрические искажения [48, 49, 50]. Распознавание текстов с другими видами искажений, возникающих при фотографировании источника цифровыми фотоаппаратами, является серьезным препятствием для подобных систем. Так как это ведёт к искажению строк, а одним из главных условий успешного распознавания печатного текста указанными системами, является необходимость прямого горизонтального расположения строк в документе. Но при фотографировании [51], а главным образом при написании документов происходит искривление строк [52].

Стенографическая система записи

«Одной из разновидностей рукописных текстов являются стенограммы. До IV в.н.э. греками было создано большое количество систем символьной записи, в которой один знак мог заменять сразу несколько знаков или один символ отображал общие слова, используемые в повседневной речи, а также суффиксы и приставки. Такие системы уже упоминаются как стенография (или узкое письмо),

бранчиграфия (или короткое письмо) или тачиграфия (или быстрописание). Целью таких систем заключается в том, чтобы конечный текст был более компактным или написать текст более быстро. Одной из систем стенографий, которая достаточно активно использовалась католиками, были заметки Тирониана (Notae Tironianae). Данный способ записи использовал комбинацию упрощенных знаков и специальных символов. Эта система стенографии использовалась в Европе в различных формах вплоть до Средневековья. Во время правления династии Ханыиуй ( Han Dynasty ) (207 год до нашей эры - 220 год нашей эры) китайцы изобрели два способа быстрого письма, которые стали известны как «бегущая» письменность и «письменность травы» — достаточно сложна для чтения без специального обучения». [53]

В России же в конце XIX начала XX веков стенография находилась на этапе становления, существовало большое количество различных стенографических систем: 'Трафодромия, или искусство скорописи" Модеста Андреевича Корфа [54], Ольхина [55] и т.д.. Некоторые из систем были компоновкой существующих с рядом добавления правил. Диссертационное исследование связано с распознаванием стенографических рукописных документов написанных в стенографической системе Ольхина. Автором данных рукописей является Сниткина Анна Григорьевна, жена Достоевского Фёдора Михайловича, которая стенографировала его произведения. В качестве исходных данных для исследования были взяты наброски к «Дневнику Писателя» за 1881 г. и «Из воспоминаний А. Г. Достоевской».

В Европе же получила распространение стенографическая запись Питмена (Pitman, Isaac 1813-1897) [56], которая популярна до текущего момента, из-за своей простоты написания. Так же широко распространение получили и системы скорописи: the Gregg (1885) [57], Gabelsberger system [58]. Стенографические системы для записи стали популярны из-за скорости записи, которая достигается при стенографировании. При наборе текста на клавиатуре скорость достигается 50-60 слов в минуту, при написании порядка 35 слов в минуту, при использовании стенографической системы Питмена более 120 слов в минуту. В стенографи-

ческих записях Сниткина помимо использования стенографической системы Оль-хина, практиковала скоропись - согланопись, т.е. пропуск гласных букв при письме.

В стенографических системах используются специальные символы для записи, в стенографической системе Питмена - 144 форм, Грегг - 132 форм. В стенографической системе Ольхина более 350 форм.

Сложность распознавания стенографических документов более велика, нежели распознавание рукописных документов. Основные проблемы, которые возникают при распознавании связаны с тем, что стенографическая запись является исключительно рукописной. Но существуют дополнительные сложности в распознавании:

- Утолщение символа. Утолщение символов, в некоторых его частях, может влиять на значение распознаваемого символа;

- Тип символа. При дешифровки один и тот же символ может иметь различные значения, в зависимости от его типа: надстрочный, подстрочный или основной;

- Размер символа, два символа внешне схожие могут иметь два различных значения, в зависимости от их физического размера;

- Определение строк. В стенографических записях большое количество зачеркиваний, исправлений, и посторонней информации, которая влияет на автоматизацию распознавания строк стенограмм;

- Стенографист мог использовать «собственные» символы, так как, дешифровку стенограммы он проводил сам.

С развитием техники и технологий задача автоматизации дешифровки стенографических записей стала актуальной. С появлением мощных вычислительных устройств обладающих большой памятью и высокой производительной мощностью, стала возможной реализация различных сложных алгоритмов. Для дешифровки могут использоваться нейронные сети и методы в распознавания форм,

например, кусочно-линейной аппроксимации, выявления сегментации пунктов по регионам [59], расстояние Хаусдорфа [60].

Задачей исследования является создание автоматизированной системы, с которой могут работать пользователи на любом, даже не мощном, персональном компьютере. Из-за того что система Питмена получила большое распространение существует большое количество автоматизированных коммерческих систем для дешифровки записей [61]. На сегодняшний день разработано большое количество методов и алгоритмов для распознавания данной записей в данной системе [62] [48]. Для малораспространённых систем стенографической записи или устаревших языков нет специализированных систем для автоматизации дешифровки.

Вследствие развития технологий и появления большого количества устройств с сенсорным способом ввода, стала актуальной проблема online распознавания текстов. Но при написании «от руки» возникает проблема, связанная с тем, что человеку очень сложно написать два идентичных символа. Основное решение данной проблемы заключается в использовании сложных алгоритмов распознавания. Использование синтаксиса и семантики для решения неоднозначностей [49]. Для этого программы онлайн распознавания (pen-centric) - ориентированные на обработку и распознание во время письма используют динамическую информацию о записи: направление штриха, порядок, количество нажатий, а так же скорость письма в пределах текущего символа. Данная динамическая информация даёт ценные знания для распознавания схожих в написании символов, как например 5 и S. Но в отличие от простого написания в скорописи динамическая информация может не дать нужных знаний, это связанно с тем, что не понятно к каким символам относятся штрихи произведенные автором. Но с другой стороны из-за того, что стенограмму пишет один и тот же автор, то начертание символов не должно отличаться во всём процессе написания.

Дополнительная сложность, возникающая в процессе распознавания текста — геометрическое искажение и искажение, связанное с рукописным написанием (искажение строк при письме). В большинстве автоматизированных систем счи-

тается, что строки не искажены и для написания использовалась специальная раз-линееная бумага или бланки с полями для ввода текста, которая упрощает запись. Так же в некоторых системах предполагается, что в строке символов должно быть 10—15 [50]. Так же принято, что для распознания строки первый попавшийся черный пиксель является начальным - пикселем первого символа. В отличие от рукописных исторических документов, где имеется большое количество исправлений, зачеркиваний. При дешифровки стенографических записей существует проблема, связанная с тем, что визуально схожие стенографические символы, но разные по размерам, могу иметь различные значения. Эта проблема связана с оцифровкой документов при помощи фотоаппарата. Фотоаппарат находился на разном расстоянии от фотографируемого объекта и даже визуально одинаковые символы могут иметь физический различный размер.

Общая архитектура дешифровки стенографических документов

Распознавание любого текста включает в себя следующие этапы:

- предобработка изображения - как правило, это бинаризация изображения;

- сегментация - выделение на предобработанном изображении текстовых областей - символов, сочетание символов, слова, строки;

- анализ полученных сегментов - установление значений, признаков, сравнение с эталонами находящимися в базе знаний;

- дешифровка - выбор наиболее подходящих словоформ из словаря соответствия с определенной моделью языка.

Стенографическая запись является частным случаем рукописного текста, тем самым алгоритм её распознавания имеет ключевые этапы, описанные выше, но из-за того, что данный способ записи используется крайне редко. А некоторые стенографические системы в текущее время не используются вообще, возникает ряд дополнительных задач, которые необходимо решить для автоматизации дешифровки:

- бинаризация исторических рукописных документов;

- создание базы данных графики стенографических символов;

- кластеризация изображений стенографических символов;

- создание базы знаний стенографических символов;

- методы выделения строк в рукописных исторических документах;

На рисунке 1 показана общая схема работы автоматизированной системы дешифровки стенографических документов. Входными данными для данной системы является графическое изображение документа. Выходными данными - печатный текст на русском языке. Весь процесс дешифровки происходит посимвольно, т.е. пользователь работает не с целым стенографическим документом, а с символами данного документа.

Первым этапом является бинаризация графического изображения. Исходное качество рукописных исторических документов низкое, и при бинаризации одним и тем же методом можно получались разные результаты, происходит подбор наилучшего метода бинаризации для текущего документа. Выходными данными данного этапа, является бинарное изображение. Далее происходит поиск связный областей на полученном бинарном изображении. Целью данного этапа является выделение ключевых фрагментов, относящихся к графике символа и удаление шума, связных областей малой площади.

Исходное изображение

Графический файл

/1—-,

бинаризация г метод бинаризации

N

* .......... - г

Подбор метода бинаризации

Бинарное представление

Выделенные связанные области

Формирование графики симво-

Стенографические сим-

волы -

Дешифровка

Рисунок 1. Общая структура процесса Во втором этапе выходными данными являются связанные области, которые в дальнейшем формируются в графику стенографического символа. Послед-

ним этапом является дешифровка, на данном этапе происходит поиск схожих символов в базе данных, определение всех возможных трактовок данного символа, определение типа символа, получение информации из текстов автора, на основе этих данных вычисляется наиболее вероятное дешифрованное значение, которое предоставляется пользователю. Пользователь может использовать своё значение, если уверен, что система не правильно дешифровала символ.

Введём понятия, которые будут использоваться в дальнейшем:

- бинаризация - процедура преобразования цветного изображения в черно-белое;

- шум - черные пиксели, не относящиеся к символам записи, полученные после бинаризации фрагмента изображения;

- связанная область — группы связанных (соседних) пикселей на изображении, формирующие графику символа;

- графика символа - бинарное представление написания стенографического символа.

Глава 1. Извлечение информации из документов

§ 1.1 Методы бинаризации изображений

Для распознания текста необходимо иметь знания об алфавите языке, на котором была произведена запись документов: оригинальные графики символов, значение символов, правила построения.

Для получения оригинальной графики символов необходимо обработать имеющийся материал и выделить из него все имеющиеся символы. Для этого необходимо предобработать исходное изображение — бинаризовав его. А далее сегментировать его.

Бинаризация заключается в разделении пикселей изображения таким образом, чтобы пиксели текста после обработки стали черными или приняли значение 1, а пиксели фона стали белыми или приняли значение 0.

Бинаризация рукописных документов может быть затруднена качеством исходных материалов. Из-за пожелтевшей бумаги, на которой было написано простым карандашом, из-за этого возникает ситуация, когда пиксели фона имеют тоже самое значение, что и пиксели символов.

Существует большое количество различных методов бинаризации все они делятся на следующие типы: пороговые, пороговые локальные и пороговые глобальные. К первому типу относятся методы бинаризации с нижним, верхним, двойным, многоуровневым порогами. Методы Отсу и основанные на энтропии, являются пороговыми локальными методами. Методы Бернсена, Эйквиля, Нибле-ка принадлежат типу пороговых глобальных.

§ 1.1.1. Метод Отсу

Метод Отсу [63] используется для пороговой бинаризации для полутоновых изображений. При обработке изображений данным методом, подразумевается наличие пикселей двух классов: фоновые и пиксели, относящиеся к текстовой информации изображения. Метод заключается в поиске оптимального порога бинаризации, который разделяет изображение на два, вышеописанных класса, таким

образом, чтобы их внутриклассовая дисперсия была минимальной. Она определяется как взвешенная сумма:

^,(t) = û)1(t)aï(t) + o)2(t)<i(t), (1) где о)2 - веса, вероятности двух классов разделённых порогом t, a , <т| — дисперсия этих классов. Результат работы метода Отсу представлен на рис. 3-е.

§ 1.1.2 Метод Бернсена

Метод Бернсена [64] является локальным пороговым методом бинаризации, при котором пороги рассчитываются исходя из значений уровня яркости пикселей из квадратной окрестности пикселя pij. Алгоритм данного заключается в следующем: для каждого пикселя pij в его некоторой квадратной окрестности, находится максимальное Ymax и минимальное Ymin значение уровня яркости. Яркость пикселя рассчитывается по формуле (2) [65]

Y = 0.299 • R + 0.5876 ■ G + 0.114 ■ В (2) где R — значение красной компоненты пикселя, G — значение зелёной компоненты пикселя, В — значение синей компоненты пикселя. Далее, если уровень контраста — разность между минимальным и максимальным значением яркости больше некого порога, тогда данный пиксель относят к классу пикселей символов, иначе к классу фона. Недостатком данного метода является то, что при обработке монотонных (по яркости) областей, появляется большое количество помех и шумов. Результат работы метода Бернсена представлен на рис. 3-d.

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Скабин, Артём Викторович

Заключение

В результате выполнения диссертационной работы были получены следующие результаты:

1. Разработан алгоритм извлечения графической информации (бинарного представления) из изображения «низкого» качества. Данный алгоритм позволяет выбрать метод бинаризации или совокупность метода бинаризации и методов предобработки изображений, для бинаризации изображения с наименьшим количеством «шумов»;

2. Разработан метод бинаризации основанный на яркостной характеристике, с выбором порога основываясь на плотности текста. Данный метод показал лучшие результаты, при бинаризации исторических рукописных стенограмм, основываясь на Р-мере;

3. Разработана математическая модель дешифровки стенографических документов, использующая информацию, не только о форме символов, месте их расположения в тексте, и данных полученных из анализа текстов автора;

4. Разработаны численные методы оценки параметров математической модели;

5. Разработано техническое описание для программного комплекса дешифровки исторических рукописных документов в виде веб-приложения;

6. Компьютерная реализация алгоритмов и создание комплекса программ по обработке стенограмм;

Разработанный программный комплекс рекомендуется при работе филологических и исторически исследований, связанных с исследованием стенографических документов и подчерков.

Список литературы диссертационного исследования кандидат наук Скабин, Артём Викторович, 2013 год

Литература

[1] Программа для распознавания текста ABBYY FineReader [Электронный ресурс]. - Режим доступа: http://wwvv.abbvу .ru/fmereader/.

[2] CuneiForm — бесплатная программа для распознавания текста документов [Электронный ресурс]. - Режим доступа: h tip ://со gn iti ve form s. ru/products/cunei form/

[3] Tesseract-ocr — An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google. - Google Project Hosting [Электронный ресурс]. - Режим доступа: http://code.google.eom/p/tesseract—ocr/.

[4] Ту, Дж. Принципы распознавания образов / Дж. Ту, Р. Гонсалес. - Москва: Мир, 1978.

[5] Mantas, J. An Overview of Character Recognition Methodologies / J. Mantas //Pattern Recognition. - 1986. - № 19. - pp. 425-430.

[6] Gillies, A. Handwritten Text Recognition System for Processing Census Forms /А. Gillies, D. Hepp, R. Rovner, M. Whalen //Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics. - 1995. - № 3. - pp. 23352340.

[7] Кучуганов, A.B. Распознавание рукописных текстов /А.В. Кучуганов, Г.В. Лапинская //Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам. Материалы международной научной конференции Ижевск, 13-17 июля 2006 г. - 2006. - С. 99-103.

[8] Juan, A. Handwritten Text Recognition for Ancient Documents /Alfons Juan, Veronica Romero, Joan Andreu Sanchez, Nicolas Serrano, Alejandro H. Toselli and Enrique Vidal //Proceedings of the First Workshop on Applications of Pattern Analysis. Cumberland Lodge, Windsor, UK. -2010. - pp. 58-65.

[9] Krzyzak, A. Unconstrained Handwritten Character Classification Using Modified Backpropagation Model /А. Krzyzak, W. Dai, C.Y.Suen //1st Int. Workshop

on Frontiers in Handwriting Recognition. Montreal, Canada. - 1990. - pp. 155166.

[10] Knerr, S. Handwritten digit recognition by neural networks with single-layer training /S. Knerr , L. Personnaz, G. Dreyfus, // IEEE Transactions on Neural Networks. -1992. -vol. 3. -pp. 962-968.

[11] Lee, Y. Handwritten digit recognition using К neares-neighbor, radial-basis function, and back-propagation neural networks / Y. Lee // Neural Computation. -1991. -vol. 3. -pp. 440-449.

[12] Martin, G.L. Recognizing hand—printed letters and digits using backpropagation learning / G.L. Martin, J.A. Pitman // Neural Computation. -1991. -vol. 3. -pp. 258-267.

[13] Hussain, F. Character Recognition of Arabic and Latin Scripts / F. Hussain, J. Cowell // Proc. IEEE International Conference on Information Visualization. -2000.-pp. 51-56.

[14] Славин, О.А. Многопроходное распознавание смешанных печатных текстов на примере русско-английского распознавания / О.А. Славин // Сборник трудов ИСА РАН "Обработка изображений и анализ данных". -2008. -т. 38. -С. 272-277.

[15] Багрова, И.А. Выбор признаков для распознавания печатных кириллических символов / И.А. Багрова, А.А.Грицай, С.А. Пономарёв, С.В. Сорокин, Д.А. Сытник // Вестник ТвГУ. Серия: Прикладная математика. -2010. -№ 18. -С. 59-72.

[16] Фан Нгок Хоанг. Распознавание печатных текстов на основе применения вейвлет-преобразования и метода главных компонент / Фан Нгок Хоанг, Буй Тхи Тху Чанг, В.Г. Спицын // Известия Томского политехнического университета. -2012. -т. 321. -№ 5. -С. 154-157.

[17] LeCun, Y. Handwritten Zipcode Recognition With Multilayer Networks / Y. LeCun, O.Matan, B.Boser, J.S.Denker, D.Henderson, R.E.Howard, W.Hubbard, L.D.Jackel, H.S.Baird // Proc. of International Conference on Pattern Recognition. Atlantic City. -1990. -pp. 35-40.

[18] Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс -Москва: Техносфера, 2005.

[19] Глазунов, А.С. Автоматическое распознавание и идентификация лиц / А.С. Глазунов // Труды Академии Управления МВД РФ, Компьютерные технологии в криминалистике и информационная безопасность. -1997. -С. 74-87.

[20] Goldstein, A.J. Identification of human faces / A.J.Goldstein, L.D.Harmon, and A.B.Lesk // Proc. IEEE. -1971. -vol. 59. -№ 5. -pp. 748-760.

[21] Kanade T. Computer recognition of human faces / T. Kanade - Basel Stuttgan: Birkhauser Verlag, 1977.

[22] Barroso, J. Identificacao Automática de Placas de Matricula Automoveis / Barroso J., Bulas-Cruz J., Rafael J., Dagless E. L. // 4.as Jornadas Luso—Espanholas de Engenharia Electrotécnica. Porto, Portugal, Julho. -1995. -vol. 3. -pp. 17831789.

[23] Попов Е.Ю. Крыжановский Д.И. Алгоритм распознавания дорожных знаков ограничения скорости // Современные научные исследования и инновации. - Июнь 2012. — № 6 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2012/06/14717 (дата обращения: 03.10.2013).

[24] Davies, К.Н. Automatic Speech Recognition of Spoken Digits / K.H. Davies, R. Biddulph, S. Balashek // The journal of the acousttical society of America. -1952. -vol. 6. -№ 24. -pp. 637-642.

[25] Мазуренко, И.Л. Компьютерные системы распознавания речи / И.Л. Мазу-ренко // Интеллектуальные системы. -1998. -т. 3. -№ 1-2. -С. 117-134.

[26] Schantz, H.F. The history of OCR: optical character recognition / H.F. Schantz -Manchester Center, Vt.: Recognition Technologies Users Association, 1992. -pp. 114.

[27] Plamondon, R. Online and off-Line Handwriting Recognition: a Comprehensive Survey / R. Plamondon, S. Srihari // Pattern Analysis and Machine Intelligence, IEEE Transactions. -2000. -vol. 22. -№ 1. -pp. 63-84.

[28] Suen, C.Y. Automatic Recognition of Hand printed Character-the State of the Art / C.Y. Suen, M. Berthod, S. Mori // Proceedings of IEEE. -1980. -№ 68. -pp. 469-487.

[29] Govindan, V.K. Character Recognition—a Review / Govindan V.K., Shivaprasad A.P. // Pattern Recognition. -1990. -№ 23. -pp. 671-683.

[30] Steinherz, T. Offline Cursive Script Word Recognition—A Survey / T. Steinherz, E. Rivlin, N. Intrator // Int'l J. Document Analysis and Recognition. -1992. -vol. 2.-pp. 90-110.

[31] Vinciarelli, A. A survey on off-line Cursive Word Recognition / A. Vinciarelli // Pattern Recognition. -2002. -vol. 35. -pp. 1433-1446.

[32] Koerich, A.L. Large vocabulary off-line handwriting recognition: A survey / A.L. Koerich, R. Sabourin, C.Y. Suen // Pattern Analysis & Applications. -2003. -№ 6. -pp. 97-121.

[33] Bortolozzi, F. Recent Advances in Handwriting Recognition / F. Bortolozzi, Jr.A. Britto, L.S. Oliveira, M. Morita // In Umapada Pal et al editors, Document Analysis.-2005.-pp. 1-31.

[34] Pranob K Charles. A Review on the VariousTechniques used for Optical Character Recognition / Pranob K Charles, V. Harish, M. Swathi, CH. Deepthi // International Journal of Engineering Research and Applications. -2012. -vol. 2. -№ 1. -pp. 659-662.

[35] Bertolami R. Rejection strategies for offline handwritten / R. Bertolami, M. Zimmermann, H. Bunke // Pattern Recognition Letters. -2006. -vol. 27. -№ 16. -pp. 2005-2012.

[36] Dzulkifli Mohamad On-Line Cursive Handwriting Recognition: A Survey of Methods and Perfomances:monograph / Dzulkifli Mohamad, Muhammad Faisal Zafar, Razib M. Othman - Universiti Teknologi Malaysia Institutional Repository, 2010.

[37] Nouboud, F.P. On-Line Recognition of Handprinted Characters: Survey and Beta Tests/ F.P. Nouboud //Pattern Recognition. -1990. -№ 23. -pp. 1031- 1044.

[38] Leedham G. Special Issue: Handwriting Processing and Applications / Graham Leedham, Wacef Guerfali, R. Plamondon // Pattern Recognition. -2002. -№ 35. -pp. 981-982.

[39] Александров, В. В. Представление и обработка изображений. Рекурсивный подход / В.В. Александров, Н.Д. Горский - Ленинград: Наука, 1985. -192 с.

[40] Александров, В. В. ЭВМ видит мир / В. В. Александров, Н. Д. Горский -Ленинград: Машиностроение Ленингр. отд-ние, 1990. -136 с.

[41] Арлазаров, В. Л. Алгоритмы распознавания и технологии ввода текстов в ЭВМ / В.Л. Арлазаров, О. А. Славин // Информационные технологии и вычислительные системы. -1996. -№ 1.

[42] Арлазаров, В. Л. Характеристика программ оптического распознавания текста / В. Л. Арлазаров, А. С. Логинов, О. А. Славин // Программирование. -2002.-№ 3.-С. 45-63.

[43] Арлазаров, В. Л. Адаптивное распознавание / В. Л. Арлазаров, О. А. Славин, Н. В. Котович // Информационные технологии и вычислительные системы. -2003.-№ 2.-С. 11-23.

[44] Арлазаров, В. Л. Адаптивное распознавание символов / В. Л. Арлазаров, В. В. Троянкер, Н. В. Котович // Сб. трудов ИСА РАН "Интеллектуальные технологии ввода и обработки информации. -1998. -С. 39-56.

[45] Gau, М. Modern Technologies for Manuscript Research / Melanie Gau, Fabian Hollaus // Труды международной конференции El'Manuscript 2012 . Петрозаводск. -2012. -С. 57-64.

[46] Gatos, В. Adaptive Degraded Document Image Binarization / B. Gatos, I. Pratikakis, S.J. Perantonis // Pattern Recognition. -2006. -vol. 39. -№ 3. -pp. 317-327.

[47] Sauvola, J.J. Adaptive Document Image Binarization / J.J. Sauvola, M. Pie-tikainen // Pattern Recognition. -2000. -vol. 33. -№ 2. -pp. 225-236.

[48] Fu, B. A model-based book dewarping method using text line detection / Bin Fu, Minghui Wu, Rongfeng Li, Wenxin Li, Zhuoqun Xu, Chunxu Yang // Proceed-

ings of the Second International Workshop on Camera-Based Document Analysis and Recognition (CBDAR-2007). Curitiba, Brazil. -2007. -pp. 63-70.

[49] Xu-Cheng Yin. A Multi-Stage Strategy to Perspective Rectification for Mobile Phone Camera-Based Document Images / Xu-Cheng Yin, Jun Sun, Satoshi Naoi, Katsuhito Fujimoto, Yusaku Fujii, Koji Kurokawa, Hiroaki Takebe // Document Analysis and Recognition. -2007. -pp. 574-578.

[50] Schneider, D.C. Robust document warping with interpolated vector fields / D.C. Schneider, M. Block, R. Rojas // Proceedings of the 9-th International Conference on Document Analysis and Recognition (ICDAR-2007). Curitiba, Brazil. -2007.-pp. 113-117.

[51] Масалович, А. А., Численные методы детектирования и удаления геометрических искажений в изображениях текстовых документов / А.А. Масалович // Информационные технологии. -2009. -№ 5. -С. 57-61.

[52] Гиппиев М.Б. Распознавание строк в стенографических документах / М.Б. Гиппиев, А.В. Жуков, А.В. Скабин, А.А. Рогов // Современные проблемы науки и образования. - электрон, ст. - М.: Издательский дом "АКАДЕМИЯ ЕСТЕСТВОЗНАНИЯ, 2013. - № 4. - Режим доступа: http://www.science-education.ru/110-9725.

[53] Стенография — искусство быстрого письма [Электронный ресурс]. - Режим доступа: http://www.kultu-rolog.ru/blogs/stenografiya-iskusstvo-byistrogo-pisma/

[54] Корф, М.А. Графодромия, или искусство скорописи / М.А. Корф -1820.

[55] Ольхин, П. Руководство к русской стенографии / П. Ольхин - Санкт-Петербург: Типография докторам. Хана, 1866.

[56] Pitman, I. Pitman's Shorthand Instructor: A Complete Exposition of Sir Isaac Pitman's System of Shorthand / I. Pitman - Melbourne, Victoria, Australia: Second Australian, 1837.

[57] Gregg, J.R. Basic Principles of Gregg Shorthand / J.R. Gregg - New York: Gregg Publishing, 1922.

[58] Gabelsberger, F.X. Lehrbuch der Gabelsbergschen Stenografie für Schul-, Privat- und Selbstunterricht 1. Kursus: Vollständiger pratischer Lehrgang / F.X. Gabelsberger - Hamburg: Haendcke & Lehmkuhl, 1874.

[59] Teh, C.H On the detection of dominant points on digital / C.H. Teh, R.T. Chin // IEEE Trans, on Pattern Analysis and Machine Intelligence. -1989. -vol. 11. -№ 8. -pp. 859-872.

[60] Dubuisson, M.P. A Modified Hausdorff Distance for Object Matching / M.P. Dubuisson, A.K. Jain // Proceeding of the 12th international conference on pattern recognition. Jerusalem, Israel. -1994. -pp. 566-568.

[61] Yang, M. Critical Technological Issues of Commercializing a Pitman Shorthand Recognition System / Ma Yang, Graham Leedham, Colin Higgins, Swe Myo Htwe // Information, Communications and Signal Processing, 2005 Fifth International Conference on. Bangkok. -2005. -pp. 1080-1083.

[62] Tappert, C.C. Shorthand Handwriting Recognition for Pen-Centric Interfaces / Charles C. Tappert, Jean R. Ward // Proceedings of Student/Faculty Research Day, CSIS, Pace University. -2007. -pp. 1037-1046.

[63] Otsu, N. A threshold selection method from gray-level histograms / N. Otsu // IEEE Trans. Sys., Man., Cyber. -1979. -vol. 9. -pp. 62-66.

[64] Bernsen, J. Dynamic thresholding of grey-level images / J. Bernsen // Proc. 8th International Conference on Pattern Recognition (ICPR8). Paris, France. -1986. -pp. 1251-1255.

[65] Порев, B.H. Компьютерная графика / B.H. Порев - СПб: БХВ-Петербург, 2002. —41 с.

[66] Eikvil, L.A fast adaptive method for binarization of document images / L. Eikvil, T. Taxt, K. Moen // Proc. 1st Int. Conf. Document Analysis and Recognition. Saint-Malo, France. -1991. -pp. 435-443.

[67] Niblack, W. An Introduction to Digital Image Processing / W. Niblack - ngle-wood Cliffs, N.J.: Prentice Hall, 1986. - pp. 115-116.

[68] Velasco, F.R.D. Thresholding using the ISODATA clustering algorithm / F.R.D. Velasco // IEEE Transaction on system, Man and Cybernitics. -1980. -№ 10. -pp. 771-774.

[69] Kapur, J.N. A New method for gray-level picture threshold using the entropy of the histogram / J.N. Kapur, P.K. Sahoo, A.K.C. Wong // Computer Vision, Graphics, and Image Processing. -1985. -№ 29. -pp. 273-285.

[70] Pun, T. A New method for gray-level picture threshold using the entropy of the histogram / T. Pun // Signal processing. -1980. -vol. 2. -№ 3. -pp. 223-237.

[71] Cheng H.D. Threshold selection based on fuzzy c-partition entropy approach / H.D. Cheng, J. R. Chen, J. Li // Pattern Recognition. -1998. -vol. 7. -№31. -pp. 857-870.

[72] Горский, H. Распознавание рукописного текста: от теории к практике / Н. Горский, В. Анисимов, JI. Горская - СПб: Политехника, 1997.

[73] Рогов, А.А. О дешифровке исторических рукописных документов / А.А. Рогов, А.В. Скабин, И.А. Штеркель // Информационные технологии и письменное наследие El'Manuscript 2012: материалы IV Международной научной конференции. Петрозаводск. 2012. -2012. -С. 230-233.

[74] Талбонен, А. Н. Анализ машинописных подписей к фотографиям в цифровом историческом альбоме / А. Н. Талбонен, А. А. Рогов // Ученые записки Петрозаводского государственного университета. Серия «Естественные и технические науки». - 2012. - № 2 (123). - С. 109-113.

[75] Маннинг, К.Д. Введение в информационный поиск / Кристофер Д. Ман-нинг, Прабхакар Рагхаван, Хайнрих Шютце - М: ООО «И.Д. Вильяме», 2011.-169-170 с.

[76] Prewitt, J.M.S. Object Enhancement and Extraction / J.M.S., Prewitt - Picture processing and Psychopictorics, 1970.

[77] Scharr, H. Principles of filter design / B. Jahne, H. Scharr, and S. Korkel // Handbook of Computer Vision and Applications. Academic Press. -1999.

[78] Выделение и описание областей [Электронный ресурс]. - Режим доступа: http://wiki.technicalvision.ru/index.php/Bыдeлeниe_и_oпиcaниe_oблacтeй.

[79] Операторы Марра и Лапласа [Электронный ресурс]. - Режим доступа: ЬПр:/^к1ЛесЬтса1у181оп.ги/1пёех.рЬр/Операторы_Марра_и_Лапласа.

[80] Zhang, Т. Y. A fast parallel algorithm for thinning digital patterns / T. Y. Zhang, C. Y. Suen // Image Processing and Computer Vision. -1984. -vol. 27. -№ 3. -pp. 236-239.

[81] Ни, M.K. Visual pattern recognition by moment invariants / M.K., Hu // IRE Transactions on Information Theory. -1962. -vol. 8. -pp. 179-187.

[82] Рогов A.A. О дешифровке рукописных исторических документов. / А.А. Рогов, А.В. Скабин, И.А. Штеркель // Информационные технологии и письменное наследие El'Manuscript-2012: материалы IV Международной научной конференции (3-8 сентября 2012). -2012. -С. 230-233

[83] Jain, К. Statistical pattern recognition: A review / К. Jain, R.P.W. Duin, J. Mao // IEEE Transactions on Pattern Analysis and Machine Intelligence. -2000. -№ 22. -pp. 4-37.

[84] Gader, P. D. Recognition of handwritten digits using template and model matching / P. D. Gader, B. Forester, M. Ganzberger, A. Billies, B. Mitchell, M. Whalen, T. Youcum // Pattern Recognition. -1991. -№ 24(5). -pp. 421-431.

[85] Dimauro, G. Automatic bankcheck processing: A new engineered system / G. Dimauro, S. Impedovo, G.Pirlo, A. Salzo // International Journal of Pattern Recognition and Artificial Intelligence, World Scientific. —1997. -pp. 467—503.

[86] Xie, S. L. On machine recognition of hand-printed Chinese character by feature relaxation / S. L. Xie, M. Suk // Pattern Recognition. -1988. -№21(1). -pp. 1-7.

[87] Bahlmann H. The writer independent online handwriting recognition system flog on hand and cluster generative statistical dynamic time warping / H. Bahlmann, C. Burkhardt // IEEE Trans. PAMI. -2004. -№26(3). -pp. 299-310.

[88] Nag, R. Script recognition using hidden Markov models / R. Nag, K. Wong H., F. Fallside // Proc. ICASSP. -1986. -№ 3(4). -pp. 2071-2074.

[89] Cheng-Lin, L. Online Recognition of Chinese Characters / Liu Cheng-Lin, Stefan Jaeger, Masaki Nakagawa // IEEE Trans, on Pattern Analysis and Machine Intelligence. -2004. -№ 26(2). -pp. 198-203.

[90] Vuurpijl, L. Two-stage character classification: A combined approach of clustering and support vector classifiers / L. Vuurpijl, L. Schomaker // Proc 7th International Workshop on Frontiers in Handwriting Recognition. Amsterdam, Netherlands. -2000. -pp. 423-432.

[91] Favata J, T. Offline general handwritten word recognition using an approximate beam matching algorithm / T. Favata J // IEEE Trans PAMI. - 2001. -№ 23(9). -pp. 1009-1021.

[92] Guillevic, D. Cursive script recognition applied to the processing of bank cheques / D. Guillevic, C. Y. Suen // In Proc. of 3th International Conference on Document Analysis and Recognition. Montreal-Canada. -1995. -pp. 11-14.

[93] Mico, L. Comparison of fast nearest neighbour classifier for handwritten character recognition / L. Mico, J. Oncina // Pattern Recognition Letters. -1999. -№ 19(3-4).-pp. 351-356.

[94] Duda, R. O. Pattern Classification / R. O. Duda, P. E. Hart, D. G. Stork - John Wiley and Sons, 2001.

[95] Rabiner, R.L. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition / R.L. Rabiner // Proceedings of the IEEE. -1989. -№ 77(2). -pp. 257-286.

[96] Vapnik, V. The Nature of Statistical Learning Theory / V. Vapnik - New York: Springer, 1995.

[97] Ayat, N. E. Optimization of the SVM kernels using an empirical error minimization scheme / N. E. Ayat, M. Cheriet, and C. Y. Suen // In Proc. of the International Workshop on Pattern Recognition with Support Vector Machine. Niagara Falls- Canada. -2002. -pp. 354-369.

[98] Byun, H. Applications of support vector machines for pattern recognition / H. Byun, S. W.Lee // In Proc. of the International Workshop on Pattern Recognition with Support Vector Machine. Niagara Falls-Canada. -2002. -pp. 213-236.

[99] Oliveira, L. S. Support Vector Machines for Handwritten Numerical String Recognition / L. S. Oliveira, R. Sabourin // 9th International Workshop on Fron-

tiers in Handwriting Recognition. Kokubunji, Tokyo, Japan. -2004. -pp. 3944.

[100] Shridhar, A. M. Recognition of isolated and simply connected handwritten numerals / A. M. Shridhar, Badreldin // Pattern Recognition. -1986. -№ 19(1). -pp. 1-12.

[101] Kim, H.Y. Handwritten korean character recognition based on hierarchical randon graph modeling / H.Y. Kim, J.H. Kim // In Proc. 6th International Workshop on Frontiers of Handwriting Recognition. Taegon-Korea. -1998. -pp. 557586.

[102] Bishop, M. Neural Networks for Pattern Recognition / M. Bishop - Oxford: Oxford Univ. Press, 1995.

[103] Масалович, А.А. Распрямление текстовых строк на основе непрерывного гранично-скелетного представления изображений / А.А. Масалович, Л.М. Местецкий // Графикон—2006: Труды международной конференции. Новосибирск. -2006.

[104] Местецкий, Л.М. Скелет многосвязной многоугольной фигуры / Л.М. Местецкий // Графикон-2005: Труды международной конференции. Новосибирск. 2005.

[105] Рогов, А.А. О дешифровке рукописных исторических документов / А.А. Рогов, А.В. Скабин, И.А. Штеркель // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL 2012. Переславль-Залесский. -2012. -С. 111-117.

[106] Котов, А. А. Информационная система для создания размеченных корпусов малой размерности / А. А. Котов, М. Ю. Некрасов, А. В. Седов, А. А. Рогов // Ученые записки Петрозаводского государственного университета. Серия «Естественные и технические науки». - 2012. - № 8 (123). - т.1. - С. 108— 112.

J

[107] Nagabhushan, S.M. Recognition of Pitman shorthand text using tangent feature values at word level / S.M. Nagabhushan // Sadhana. India. -2003. -pp. 10371046.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.