Методы, алгоритмы и программные средства построения автоадаптивных шрифтов для аппаратно-программных комплексов обработки и создания неформатных электронных документов тема диссертации и автореферата по ВАК РФ 05.13.15, кандидат технических наук Чередниченко, Игорь Николаевич

  • Чередниченко, Игорь Николаевич
  • кандидат технических науккандидат технических наук
  • 2014, Москва
  • Специальность ВАК РФ05.13.15
  • Количество страниц 128
Чередниченко, Игорь Николаевич. Методы, алгоритмы и программные средства построения автоадаптивных шрифтов для аппаратно-программных комплексов обработки и создания неформатных электронных документов: дис. кандидат технических наук: 05.13.15 - Вычислительные машины и системы. Москва. 2014. 128 с.

Оглавление диссертации кандидат технических наук Чередниченко, Игорь Николаевич

Оглавление

ВВЕДЕНИЕ

Глава 1. АНАЛИТИЧЕСКИЙ ОБЗОР СОСТОЯНИЯ РАБОТ ПО ОПТИЧЕСКИМ СИСТЕМАМ РАСПОЗНАВАНИЯ НЕФОРМАТНЫХ ГРАФИЧЕСКИХ ДОКУМЕНТОВ. ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ

1.1. Краткая ретроспектива развития оптических систем распознавания образов

1.2. Анализ современного состояния работ в области хранения и обработки неформатных текстовых графических документов

1.3. Постановка задачи исследования

Глава 2. РАЗРАБОТКА МАТЕМАТИЧЕСКОЙ МОДЕЛИ РЕШЕНИЯ ЗАДАЧИ КЛАСТЕРИЗАЦИИ ГРАФИЧЕСКИХ ОБЪЕКТОВ ДЛЯ ПОСТРОЕНИЯ АВТОАДАПТИВНОГО ШРИФТА

2.1. Формирование вектора признаков объектов неформатного графического документа

2.2. Выбор необходимого количества членов ряда Фурье для получения необходимой точности решения задачи обратного восстановления их вида.

2.3. Выбор метрики расстояния в пространстве признаков описания объектов графического документа

2.4. Метод построения автоадаптивного шрифта на основе процедуры кластеризации графических объектов

2.5. Краткие выводы

Глава 3. МЕТОДЫ ПРЕДВАРИТЕЛЬНОМ ОБРАБОТКИ ИСХОДНЫХ НЕФОРМАТНЫХ ГРАФИЧЕСКИХ ДОКУМЕНТОВ ДЛЯ ПОСТРОЕНИЯ АПК

3.1. Бинаризация исходного изображения графического документа

3.2. Разработка процедуры выделения графических объектов и получение их контуров из бинаризованного электронного документа методом маркированных квадратов

3.3. Разработка алгоритма построения вектора признаков графических объектов из контурной информации

3.4. Вычисление порога определения похожести графических объектов для включения в элемент словаря адаптивного шрифта

3.5. Краткие выводы

Глава 4. РАЗРАБОТКА И ОПИСАНИЕ АППАРАТНО-ПРОГРАММНОГО КОМПЛЕКСА А-ВМо ДЛЯ ПОДГОТОВКИ И ВЕБ-ПУБЛИКАЦИЙ НЕФОРМАТНЫХ ГРАФИЧЕСКИХ ДОКУМЕНТОВ. ВОПРОСЫ ПРАКТИЧЕСКОГО ПРИМЕНЕНИЯ

4.1. Общая схема построения аппаратно-программного комплекса для публикации неформатных графических документов

4.2. Модули, реализующие алгоритм построения автоадаптивного шрифта

4.2.1. Модуль ввода и первоначальной обработки электронных документов

4.2.2. Модуль выделения объектов графического документа на основе метода "маркированных квадратов" и выбор точки привязки графического объекта

4.2.3. Модуль построения векторов признаков графических объектов документа

4.2.4. Модуль вычисления матриц расстояний и сходства и формирования ячейки автоадаптивного шрифта графического документа

4.3. Организация веб-публикаций электронных документов с использованием НТМЬ-5 и РЫвЬ-технологии

4.4. Реализация метода поиска информации по многостраничному графическому документу при помощи автоадаптивного шрифта

4.5. Практическая реализация и сопряженные задачи, для которых возможно использовать технологию автоадаптивного шрифта

4.5.1. Описание классов задач обработки графических образов

4.5.2. Распознавание раздельного рукописного текста как задача построения автоадаптивного шрифта

4.5.3. Задача биометрической идентификации подписи как работа с ячейкой авто адаптивного шрифта

4.5.4. Обратные задачи с применением алгоритма формирования автоадаптивного шрифта

4.6. Краткие выводы

Заключение

Список литературы

Приложения

Приложение 1. Программная реализация процедур поиска объектов графического документа и выделения границ объектов..

Приложение 2. Процедура формирования вектора признаков

Приложение 3. НТМЬ-код для обратного восстановления документа из адаптивного шрифта

Приложение

Приложение

. Восстановление графического объекта из элемента автоадаптивного шрифта

. Акт об использовании

Рекомендованный список диссертаций по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы, алгоритмы и программные средства построения автоадаптивных шрифтов для аппаратно-программных комплексов обработки и создания неформатных электронных документов»

ВВЕДЕНИЕ.

Развитие компьютерных технологий и насущная потребность перевода в электронный вид документов на бумажных носителях выдвинуло в число актуальных проблему разработки методов и алгоритмов для автоматических комплексов обработки и веб-публикаций неформатных графических документов он-лайн библиотек.

В настоящее время основным методом перевода документов с бумажных носителей в электронный вид является сканирование. При сканировании используются специальные аппаратно-программные комплексы, с развитым программным обеспечением, требуемым для подготовки документа. Немаловажное значение при сканировании документов имеют распознавание, обработка и интеграция графических образов в электронный документ. При сканировании любого бумажного документа генерируется его образ, сохраняемый в одном из графических форматов. Из этих сканированных электронных документов строится электронная библиотека — информационная система, позволяющая сохранять, эффективно использовать разнообразные коллекции электронных документов, локализованных в самой системе, а также обеспечивать доступ к этим коллекциям через телекоммуникационные сети.

Разработка подобных автоматических комплексов и систем обработки графических документов для электронных библиотек ведется с предыдущего столетия. Среди всемирно значимых проектов можно упомянуть Библиотеку Конгресса США, Библиотеку им. Б.Н.Ельцина в Санкт-Петербурге, Цифровую европейскую библиотеку Еигореапа и другие. Однако, в этой области остается еще много нерешенных технических задач и организационных проблем.

Если ситуация с новыми изданиями и публикациями компьютерного периода выглядит достаточно хорошо (в последние годы публикации в большинстве случаев готовятся в цифровом виде), то в работе с неформатными графическими документами, по сути, являющимися сканами, приходится сталкиваться с множеством задач, требующих своего решения. Объем изданий, публикаций и документов, которые были выпущены в бумажном виде еще до внедрения компьютерных технологий обработки исчисляется сотнями миллионов страниц. Проблема усугубляется еще и тем, что все эти документы продолжают стареть и ветшать и если их не перевести в цифровой формат, многие из них могут быть безвозвратно утрачены.

Попытки перевести отсканированные изображения в современные форматы электронных документов при помощи программ оптического распознавания текста сталкиваются с серьезными трудностями, причина которых состоит в том что до-компьютерную эпоху не придавалось особого значения стандартизации набора шрифтов и оформления печатных документов. В результате неформатные бумажные документы часто использовали нерегулярные и нестандартные наборы шрифтов. В дополнение ко всему, существует насущная необходимость сохранения в электронном формате первоначального вида таких документов, их особенностей и стилей. Тем более, что для многих полу-рукописных, старинных печатных и руко-печатных текстов, а также уникальных изданий необходимо сохранять не только сам текст исторического документа, но и всю графическую и цветовую гамму первоисточника. Специальные подходы, методы обработки и принципы хранения и представления данных в неформатных электронных документов разработаны недостаточно, а проблемы их разработки остаются крайне актуальны.

Математический аппарат, лежащий в основе работы систем оптического распознавания текстов, начал создаваться еще в 60-х годах прошлого века. Наиболее полное освещение и законченную форму он получил в работах

7

академика Журавлева как модель ABO. Этот подход позволяет строить алгоритмы различного назначения и для разнообразных предметных областей.

В данной работе предпринята попытка на основе математического аппарата модели алгоритма вычисления оценок (ABO) построить модифицированные методы и алгоритмы, позволяющие эффективно (с большим быстродействием и точностью) обрабатывать неформатные графические документы в АПК конвертации бумажных документов в электронные. На пути реализации этой попытки необходимо восполнить целый ряд пробелов в технических решениях, применяемых в настоящее время при решении аналогичных задач. К таким пробелам следует отнести отсутствие адекватных алгоритмов и программных средств автоматической обработки неформатных графических документов с целью формирования их уникальных автоадаптивных шрифтов; отсутствие алгоритмов обратного восстановления исходного вида графических документов, построенных на основе информации автоадаптивного шрифта, позволяющего обеспечить достижение наилучшего качества восстановления документа; отсутствие математических моделей, позволяющих представить единым образом все виды объектов неформатных графических документов, с построением для каждого объекта вектора признаков и с использованием выбранной метрики для оценки похожести этих объектов; неопределенная процедура выбора необходимого количества членов разложения в ряд Фурье для решения поставленной задачи и др. На основании аналитического обозрения главы 1 данной работы в разделе 1.3 «Постановка задачи исследования» представлен полный перечень задач, решаемых в диссертации.

В 1977 году Абрахам Лемпель и Якоб Зив предложили алгоритм сжатия данных, названный позднее «LZ77» [1]. Этот алгоритм используется в программах архивирования compress, lha, pkzip и arj. Алгоритм предполагает кодирование последовательности бит путем разбивки ее на фразы с

8

последующим кодированием этих фраз. Системы кодирования по методу Лемпеля-Зива используют технологию кодирования с применением т.н. «адаптивного словаря», содержание которого состоит из набора произвольных фрагментов данных, не связанных с содержанием документа и может изменяться в зависимости от обрабатываемых данных в процессе адаптивного словарного кодирования. Поскольку в словарь включены лишь разнородные фрагменты^анных, длинной от пары до сотен бит, он неплохо себя показывает в случаях универсального применения, но не совсем удобен для текстовых графических документов. Реализация такого словарного подхода на низком фрагментарном уровне, заложенная в стандарте Л3Е02000, ни к каким преимуществам не привела и стандарт так и не получил широкого распространения. На наш взгляд, продуктивная идея не сработала в полной мере из-за выбора слишком «низкого» уровня разбиения и детализации минимальных объектов, подлежащих обработке.

Точка зрения автора данной работы состоит в том, что разбиение графического документа на объекты, мельче, чем буквы - далеко не всегда эффективно при решении задачи обработки неформатных графических документов. Действительно, если смотреть на любой графический документ с позиции пользователя, то изначальными и основными «кирпичиками», определяющими восприятие текстового материала будут, прежде всего, изображения букв и их сочетаний. В связи с этим, в работе гипотезируется возможность построения расширяемого адаптивного словаря, но уже на более высоком уровне - выделения графических объектов, максимально приближенным к соответствующим буквам, а, по сути, к их шрифтам, составляющих графический документ. Поэтому, проведя предварительную обработку графического документа и выделив в нем все отдельные объекты, соответствующие уровню букв и шрифтов, можно построить уникальный расширяемый словарь графических объектов, адаптированный к данному графическому документу. Словарь автоматически корректируется по мере

обработки графических объектов и накопления статистической информации для каждого нового документа. Именно этот адаптивный расширяемый словарь графических букв, шрифтов и других объектов автоматизированной обработки конкретного документа условно назван нами «автоадаптивным шрифтом», а совокупность методов его применения - «технологией построения автоадаптивного шрифта» [2].

Развиваемый в диссертации подход к представлению графических данных на более высоком уровне «автоадаптивного шрифта» открывает хорошие перспективы в обработке неформатных графических документов -позволяя проводить над ними уже такие продвинутые процедуры как релевантный поиск, частотный анализ содержимого, улучшение читаемости при уменьшении размера исходного документа и частичное восстановление искаженных при сканировании фрагментов.

Таким образом, целью данной работы является разработка методов, алгоритмов и программных средств для построения автоадаптивных шрифтов для эффективной обработки и создания неформатных электронных документов в АПК, обрабатывающих бумажные документы и создающих их точные электронные версии с уменьшением временем доступа к документу и сокращением затрат памяти на его хранение.

Объектом исследования являются автоматизированные программно-аппаратные комплексы обработки и создания электронных документов.

Предмет исследования определён паспортом специальности 05.13.15 «Вычислительные машины, комплексы и компьютерные сети», область исследования №3 «Разработка научных методов и алгоритмов организации логической, символьной и специальной обработки данных», а также отражен в перечне решаемых в диссертации задач.

Структура диссертации включает в себя Введение, определяющее актуальность и место данной работы, четыре главы содержательного текста объёмом 105 страницы, Заключение, представляющего результаты работы, выносимые на защиту с указанием их теоретической и практической значимости, список Литературы, включающий 81 источник и четыре Приложения, в которые вынесены программные аспекты работы. Общий объём работы с Приложениями - 128 страниц.

Глава 1. АНАЛИТИЧЕСКИЙ ОБЗОР СОСТОЯНИЯ РАБОТ ПО ОПТИЧЕСКИМ СИСТЕМАМ РАСПОЗНАВАНИЯ НЕФОРМАТНЫХ ГРАФИЧЕСКИХ ДОКУМЕНТОВ. ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ.

1.1. Краткая ретроспектива развития оптических систем распознавания образов.

За последние 20-30 лет в мировой литературе опубликовано большое количество статей и более сотни книг, в которых обсуждаются задачи распознавания и идентификации графических объектов, явлений м процессов. Прогресс в области технологий привел в последнее время к созданию совершенно новых устройств ввода графической в том числе и рукописной информации. Более того, интеграция этих устройств ввода с переносными компьютерами, привела к появлению совершенно нового типа устройства - Pen-computer, а дальнейшее развитие технологий и прогресс в развитии электроники к большому количеству портативных устройств типа "наладонников", смартфонов и современных планшетов, имеющих функции перьевого ввода информации. Все эти устройства активно используют идеи и результаты теории распознавания образов.

Современные программы оптического распознавания текстов являются продуктом интенсивной эволюции и развития теории и практики распознавания образов.

Первая программа оптического распознавания символов (ОСР -оптические системы распознавания) была создана в 1959 году компанией Intelligent Machine Corporation. Она могла распознавать тексты, набранные только одним шрифтом определенного размера, и использовалась в банковской сфере для обработки документов. Для гарантированной точности распознавания был разработан специальный шрифт, в котором максимально устранена схожесть между подобными символами (например, между 1, i и j). В 1966 году в США был стандартизован первый такой шрифт, названный OCR-А, в это же время в Европе стандартизировали шрифт OCR-B [3].

В 70-х годах прошлого столетия компания Kurzweil Computer Products представила систему, которую можно было научить распознавать любой шрифт [4]. После нескольких часов обучения результаты тренинга записывались на диск, и программа могла в будущем распознавать этот шрифт без повторного обучающего курса. Эта и большинство других систем в конце 70-х и начале 80-х годов работали на базе шаблонов. Изображение каждого символа разбивалось на последовательность линий и кривых, после чего для каждого такого векторизованного образа подбирался наиболее похожий шаблон.

В 1957г. Ф. Розенблатт [5] предложил машину, для обучения распознаванию образов, названную им персептроном, Эта машина явилась простейшей моделью работы мозга, связанной с распознаванием образов и положившая начало многочисленным попыткам практического применения «метода нейронных сетей» в ОСР. В нашей стране одна из первых работ в области распознавания образов была выполнена A.A. Харкевичем [6]. Первые работы в области распознавания образов были главным образом

связаны с теорией и практикой построения читающих автоматов, и само слово "образ" использовалось для обозначения напечатанного или написанного от руки знака, изображающего букву или цифру.

В 1986 году компания Calera Recognition Systems представила систему, которая могла распознавать сложные страницы, содержащие набор различных шрифтов, без предварительного обучения [7]. В отличие от применявшегося ранее метода распознавания на базе шаблонов, эта система использовала программный прообраз искусственного интеллекта, в котором распознавание символов осуществлялось по алгоритмам во многом схожими с процессами происходящими в нейронных сетях человеческого мозга. При разработке этой системы, в нее заложили свыше 10 тысяч образцов написания каждой буквы английского алфавита, включая сильно искаженное начертание литер. Программа самостоятельно обобщала начертание каждой буквы, в результате чего могла распознавать тексты, напечатанные незнакомым ей ранее шрифтом. Кроме того, система значительно лучше справлялась с распознаванием некачественно отпечатанных документов.

Современные ОСР могут распознавать тексты, набранные различным шрифтом, на более чем 100 языках, обеспечивая высокую правильность распознавания для высококачественных исходных изображений [8]. Значительный прогресс наблюдается и при распознавании некачественных текстов, например, факсимильных сообщений. Хотя здесь еще не все совершенно, погрешность при распознавании может достигать 20 % и более. Проблема в том, что программы распознавания символов пока не могут в полной мере использовать зрительные, семантические и когнитивные алгоритмы, применяемые человеком в процессе чтения. Известно, что человек определяет буквы, воспринимает слова, связывает их в синтаксические конструкции и понимает смысл предложения, в то время как OCR пока выполняют в основном орфографическую верификацию отдельных символов и слов. Тем не менее, класс прикладных задач, которые

13

могут быть с той или иной степенью адекватности формализованы как задачи распознавания образов, столь широк, что практически невозможно указать область знаний, где модели и методы распознавания образов не оказались бы полезными.

В специальной литературе различают детерминированные, вероятностные, логические, лингвистические и комбинированные системы [9]. Такая классификация проводится по типам используемых методов принятия решения об отнесении распознаваемого объекта к тому или иному классу. Кроме того, системы распознавания принято различать на системы без обучения, обучающиеся (обучение с "учителем") и самообучающиеся (обучение без "учителя") [5].

Для построения детерминированных систем используются геометрические меры близости, основанные на измерении расстояния между распознаваемым объектом и эталонами классов. Применение детерминированных систем распознавания предусматривает, что эталоны классов заданы точкой или конечным множеством точек в пространстве признаков.

В вероятностных системах для построения алгоритмов распознавания используются методы, основанные на теории статистических решений [10, 11]. Применение вероятностных методов распознавания предусматривает наличие вероятностных зависимостей между признаками распознаваемых объектов и эталонами классов.

В логических системах распознавания для построения алгоритмов используются методы, основанные на дискретном анализе и базирующемся на нем исчислении высказываний. Применение логических методов предусматривает наличие логических связей, выраженных через систему булевых уравнений, в которой переменными являются логические признаки распознаваемых объектов, а неизвестными - классы, к которым эти объекты

относятся. Применение методов алгебры логики необходимо тогда, когда существенны не только количественные соотношения между признаками, но и связывающие их логические зависимости [12].

В структурных или лингвистических системах [13, 14] входной вектор признаков интерпретируется как цепочка символов, связанных между собой грамматическими правилами. Подобные системы используют для построения алгоритмов распознавания специальные грамматики, порождающие языки, состоящие из предложений, каждое из которых описывает объекты, принадлежащие конкретному классу. Применение лингвистических методов требует наличия совокупности предложений, описывающих все множество объектов, принадлежащим всем классам алфавита. При этом множество предложений должно быть подразделено на подмножества по числу классов системы. Важнейшей отличительной особенностью грамматического подхода к описанию и распознаванию образов является то, что длина цепочки описания объекта (вектора признаков) может быть любой. Лингвистический подход применялся к классификации двумерных изображений, однако при его применении возник ряд серьезных проблем [15, 16], связанных с тем, что образующийся словарь возможных высказываний весьма громоздок и в нем необходимо отобрать наиболее существенные высказывания, влияющие на точность распознавания.

Комбинированные системы [17] характеризуются тем, что для построения алгоритмов распознавания используется специально разработанный метод ABO (алгоритм вычисления оценок). Их применение требует наличия таблиц, содержащих эталонные объекты, и значения признаков, характеризующих распознаваемые объекты. Признаки, использующиеся в методе ABO, могут быть детерминированными, логическими, вероятностными и структурными.

Системы без обучения [18, 19, 20] характеризуются тем, что первоначальной (априорной) информации достаточно для того, чтобы определить алфавит классов, построить словарь признаков и на основе непосредственной обработки исходных данных произвести описание каждого класса на языке этих признаков, т.е. в первом приближении достаточно определить решающие границы и решающие правила. Эти системы можно применять в задачах распознавания, когда перечень входных объектов известен и неизменен. Однако, для решения, например, задачи распознавания рукописного текста такой подход мало приемлем в силу большой вариабельности входных образов.

В обучающихся системах [21, 22] первоначальной априорной информации достаточно для определения априорного алфавита классов и построения словаря признаков, но недостаточно для описания классов на языке признаков. Такие системы распознавания работают с "учителем". Эта работа заключается в том, что "учитель" многократно предъявляет системе обучающие объекты всех выделенных классов и указывает, к каким классам они принадлежат. После этого "учитель" экзаменует систему распознавания, корректируя ее ответы до тех пор, пока количество ошибок не станет меньше желаемого уровня. В настоящее время создано большое количество алгоритмов обучения для решения разнообразных практических задач распознавания.

В самообучающихся системах [17] первоначальной априорной информации достаточно лишь для определения словаря признаков, но недостаточно для проведения классификации объектов. На стадии подготовки системы к работе, ей предъявляют исходные объекты, которые заданы лишь значениями своих признаков, но без указаний о том, к какому классу эти объекты принадлежат. Эти указания заменяются набором правил, используя которые система сама вырабатывает классификацию объектов.

В настоящее время наибольшего успеха в решении прикладных задач распознавания образов удалось достичь с применением обучающихся систем. Такие системы развивались по двум направлениям.

Первое из них получило начало с уже упомянутой работы Розенблатта [5], который предложил алгоритм обучения персептрона и доказал теорему о том, что персептрон может быть обучен всему, что он способен реализовать. По всей видимости, эта работа, существенно опиравшаяся на разработанную еще в 40-х годах физиологом У.Мак-Каллоком и математиком У.Питтсом [23] модель нейрона, положила начало новому разделу вычислительной математики - теории искусственных нейронных сетей (нейроматематики). Обучение персептрона является обучением с учителем. Простота и наглядность алгоритма обучения персептрона (изменение синаптических весов однослойной сети) породили в шестидесятых годах массу работ по применению нейронных сетей для решения конкретных прикладных задач. Некоторые из них (предсказание погоды, анализ электрокардиограмм и др.) были успешно решены.

Однако, вскоре выяснилось, что эти сети не могут решать задачи, внешне весьма схожие с теми, которые они успешно решали. Минский и Пейперт провели строгий математический анализ персептронов и доказали, что используемые в то время однослойные сети теоретически неспособны решать многие простые задачи [24]. К концу 60-х годов стало ясно, что линейная разделимость классов ограничивает однослойные сети задачами кластеризации, в которых множества точек могут быть разделены геометрически. Было известно, что это серьезное ограничение можно преодолеть, добавив дополнительные слои. Однако, долгое время для обучения многослойных искусственных сетей не было теоретически обоснованного алгоритма, отчего вся нейроматематика оказалась в кризисном состоянии. Вывел ее из этого состояния алгоритм обратного распространения ошибки [25, 26], основная идея которого состоит в

17

распространении сигналов ошибки от выходов нейронной сети к её входам, в направлении, обратном прямому распространению сигналов в обычном режиме работы. Обратное распространение было успешно использовано для визуального распознавания букв, преобразования "текст - речь", сжатия изображений и т.п.

В 1975 г. К. Фукушима предложил новую нейросетевую парадигму -когнитрон [27], а еще через пять лет - ее развитие, неокогнитрон [28]. Их отличительной чертой является более глубокое использование биологических свойств нейронов для построения математической модели системы адаптивного распознавания образов и моделирования зрительной системы человека. К сожалению, за высокую теоретическую точность распознавания когнитрона, и особенно, неокогнитрона приходится расплачиваться весьма большими объемами вычислений. Однако опыт разработки таких систем показывает, что взаимодополняющие друг друга усилия нейрофизиологов, биологов и математиков в исследовании функций мозга и моделировании его работы могут привести к значительным достижениям.

По своей сути, задача распознавания является в частном случае дискретным аналогом проблемы поиска оптимальных решений. К таким задачам сводятся не только задачи синтеза наилучших решений, но и другие важные классы прикладных проблем, прежде всего проблема технической и медицинской диагностики.

Основная причина, по которой внимание большого числа исследователей было привлечено в последние десятилетия к решению задач классификации — это обилие прикладных вопросов, исследование которых сводится к решению задач этого типа. Дело в том, что подавляющее большинство применений теории распознавания связано с плохо формализованными областями науки и практики, такими, как медицина,

геология, социология, химия и т. п. В этих областях трудно строить формальные теории и применять стандартные математические методы. В лучшем случае удается дать математическое оформление некоторым интуитивным принципам и затем применить построенные «эмпирические» формализмы для решения специальных типов проблем. Это обстоятельство определило тот факт, что на первом этапе развития теории и практики распознавания образов возникло большое число различных методов и алгоритмов, применявшихся без какого-либо серьезного обоснования для решения практических задач. Такие методы, как это принято во всех экспериментальных науках, обосновывались непосредственной проверкой — успехом решения реальных задач. Многие из них выдержали такую проверку и применяются, несмотря на отсутствие математических обоснований.

Это направление, связанное с развитием подходов к решению задач распознавания, привело к созданию общей модели вычисления оценок (ABO), впервые предложенной в работах Ю.И.Журавлева и его учеников [14, 29, 30, 31]. Характерной чертой алгоритма вычисления оценок в отличие от практически любых нейросетевых алгоритмов является компактность программной реализации. Это открывает возможность для решения некоторых прикладных задач с использованием весьма скромных по своим техническим параметрам вычислительных устройств. Кроме того, как будет показано ниже, класс задач, поддающихся решению в рамках модели вычисления оценок, достаточно широк, а скорость обучения для ее адаптивной реализации весьма высока.

Похожие диссертационные работы по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Список литературы диссертационного исследования кандидат технических наук Чередниченко, Игорь Николаевич, 2014 год

СПИСОК ЛИТЕРАТУРЫ

1. Compression of individual sequences via variable-rate coding. J., Ziv and A., Lempel. 5, s.l. : IEEE Transactions on Information Theory , 1978, Vol. 24.

2. Построение авто-адаптивного фонта в документах электронных библиотек. А.Н.Сотников, И.Н.Чередниченко. Тверь: Программные продукты и системы, №2(82), 2008 г. ISSN 0236-235Х.

3. http://luc.devroye.org/fonts-48501.html. McGill University. [Online]

4. http://www.kurzweiltech.com/kcp.html. Kurzweil Technologies. [Online]

5. Rosenblatt. Perceptron simulation experiments, s.l. : Proc. I.R.E., 1960. p. 48.

6. Опознавание образов. А.А.Харкевич. M. : Радиотехника, 1959 г., Т. 14, стр. 15.

7. Ewing Jr., William Steele, Ellis, Thomas Walter and Choate, William Clay.

3810162 United States, 05 07, 1974.

8. http://www.abbyy.ru/finereader-professional/recognition-languages/. Abbyy.ru. [Online] 2014.

9. Жданов, A.A. Предисловие. Труды Института системного программирования РАН. 2004, Vol. 7.

10. К.Фу. Последовательные методы в распознавании образов и обучении машин. М : Наука, 1971.

11. К.Хелстром. Статистическая теория обнаружения сигналов. М: Иностранная литература, 1963.

12. Математическое моделирование в задачах оптимального размещения ресурсов Модели и методы анализа больших систем. Б.М., Пранов. Сб. научн. тр. АН СССР, М. : Вопросы кибернетики, 1990, р. 85.

13. М.В.Глушков. Основы математической логики: Цикл лекций на научно-техническом семинаре. -В кн.: Математический аппарат кибернетики. Киев : ДНТП, 1961.

14. Теоретико-множественные методы в алгебре логики. Ю.И.Журавлев. 8, М. : ГИФМЛ, Проблемы кибернетики, 1962.

15. Proc. of the Fall Joint Computer Computer Conf. Miller W., Shaw J. s.l. : Amer. Federation of Inform. Sci., 1968. Linguistic methods in picture processing - a survey, pp. 279-290. 33.

16. 3-rd International Symposium on Сотр. and Inform. Sci. Fu S., Swain P. s.l. : Software engineering, 1971. On syntactic pattern recognition. Vol. II.

17. A.J1.Горелик and В.А.Скрипкин. Методы распознавания. Москва : Высшая школа, 2004. 5-06-004396-7.

18. В.С.Пугачев. Теория вероятностей и математическая статистика. М : Наука, 1979.

19. К.Фукунага. Введение в статистическую теорию распознавания. М : Наука, 1979.

20. Г.М.Мания. Статистическое оценивание распределения вероятностей. Тбилиси : Издательство Тбилисского университета, 1974.

21. Айзерман М.А., Браверман Э. М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. М : Наука, 1970.

22. Я.З.Цыпкин. Адаптация и обучение в автоматических системах. М : Наука, 1968.

23. A logical calculus of the ideas immanent in nerrous activity. McCulloch W., Pitts W. 5, s.l. : Bull. Math. Biophys, 1943, pp. 115-133.

24. Минский M., Пайперт С. Персептроны. M : Мир, 1971.

25. P.Werbos. Beyond regression : New tools for prediction and analysis in the behavioral sciences, s.l. : Masters thesis, Harward University, 1974.

26. Rumelhart D., Hinton G., Williams R. Learning internal representation by error propagation. Parallel Distributed Processing. 1986, Vol. 1, pp. 318-362.

27. K.Fukushima. Cognitron: A self-organizing mult ilayered neural network. Biological Cybernetics. 1975, Vol. 20, pp. 121-136.

28. K.Fukushima. Neocognitron:A self-organizing neural network model for a mechanism of pattern recognition uneffected by shift in position. Biological Cybernetics. 1980, 36(4), pp. 193-202.

29. Ю.И.Журавлев. Экстремальные задачи, возникающие при обосновании эвристических процедур // Проблемы прикладной математики и механики. М. : Наука, 1971. стр. 67-75.

30. Об алгебраическом подходе к решению задач распознавания и классификации. Ю.И.Журавлев. Вып. 33, М : Проблемы кибернетики., 1978 г., стр. 5-68.

31. Ю.И.Журавлев, И.Б.Гуревич. Распознавание образов и анализ изображений // Искусственный интеллект. Кн.2, Модели и методы. М. : Радио и связь, 1990. стр. 149-190.

32. С.А.Айвазян, И.С.Енюков , JI. Д.Мешалкин. Прикладная статистика: основы моделирования и первичная обработка данных. М. : Финансы и статистика, 1983.

33. Jain, Murty and Flynn. A Review, ACM Сотр. Surv. Data Clustering. 1999, 31(3).

34. Исиков, Глеб. hnp:/Vwww.ixbr.corw'sofunnereader.shtml. www.ixbl.com. [Online] 2012.

35. www.deutsche-digitale-bibliothek.de. deutsche-digitale-bibliothek. [Online]

36. http://gallica.bnf.fr. Gallica. [Online]

37. Freeman. Computer processing of line-drawing images. Comput. Surv. 1974, Vol. vol. 6, pp. 57-97.

38. Blumenkrans. Two-dimensional object recognition using a two-dimensional polar transform. Pattern Recognition. 1991, Vol. Vol. 24, 9, pp. 879-890.

39. Bribiesca. A geometric structure for two-dimensional shapes and three-dimensional surfaces. Pattern Recognition. 1992, Vol. Vol. 25, 5, pp. 483-496.

40. Y.H.Yang, Maylor and. Dynamic strip algorithm in curve fitting. Computer vision, graphics and image processing. 1990, 51, pp. 146-165.

41. Pavlidis. A review of algorithms for shape analysis. Comput. Graphics Image Processing. 1978, 7, pp. 243-258.

42. Метод линейной аппроксимации контуров бинаризированного изображения. В.Н., Решетников, Г.В., Еременко and Е.Г., Трофимова. Тверь : Труды Всесоюзного семинара "Программное обеспечение новых информационных технологий", 1991.

43. Д.Джексон. Ряды Фурье и ортогональные полиномы. М. : Изд-во иностр. лит-ры, 1948. стр. 12-56.

44. В.А.Березнев, А.Ю.Волков , И.Н.Чередниченко. Об использовании преобразования Фурье в задаче распознавания рукописного текста. Вопросы моделирования и анализа в задачах принятия решений. ВЦ РАН, 2003 г., стр. 153-159.

45. В.А.Березнев, А.Ю.Волков , И.Н.Чередниченко. О выборе параметров в алгоритме распознавания раздельного рукописного текста. Вопросы

моделирования и анализа в задачах принятия решений. ВЦ РАН, 2004 г., стр.136-143.

46. Дж.-О., Ким, et al. Факторный, дискриминантный и кластерный анализ. Москва : Финансы и статистика, 1989. р. 215.

47. Error-detecting and error-correcting codes. Hamming, Richard W. 29(2), s.l. : Bell System Technical Journal, 1950, pp. 147-160.

48. В.Д.Мазуров. Комитеты системы неравенств и задача распознавания. Кибернетика. 1971 г.,№3.

49. Метод комитетов в распознавании образов. Сборник. Свердловск : АН СССР, Уральский научный центр, 1974.

50. Ю.И.Журавлев, В.В.Никифоров. Алгоритмы распознавания, основанные на вычислении оценок. Кибернетика. 1971, № 3.

51. Ю.И.Журавлев, М.М.Камилов, Ш.Е.Тулягаиов. Алгоритмы вычисления oifenoK и нх применение. Ташкент : «ФАН», 1974.

52. З.Брандт. Статистические методы анализа наблюдений. М. : "Мир", 1975.

53. Neyman J., Pearson E.S. On the use and interpretation of certain test criteria for purposes of statstical inference. Biometrika. 1928, Vol. 20A.

54. V.A.Bereznev, A.N.Sotnikov, I.N.Cherednichenko. A Probabilistic Criterion and an Integral Method in Graphic-Object Recognition and Information Retrieval. Pattern Recognition and Image Analysis. Moscow,Interperiodika, 1994, Vol. 4, l,pp. 32-35.

55. В.А.Березнев, А.Н.Сотников, И.Н.Чередниченко. Адаптивная статистическая модель распознавания образов. Информационные технологии и вычислительные системы. 1996 г., № 1, стр. 55-63.

56. A fast parallel algorithm for thinning digital patterns. T.Y.Zhang and C.Y.Suen. Comm.ACM 27, 1984, pp. 236-239.

57. Marching Cubes: A high resolution 3D surface construction algorithm. Lorensen, William E. and Cline, Harvey E. Nr.4, s.l. : Computer Graphics, 1987, Vol.21.

58. Geometric design and space planning using the marching squares and marching cube algorithms. C., Maple, s.l. : Computer Graphics, 2003, Proc. 2003 Intl.Conf. Geometric Modeling and Graphics, pp. 90-95.

59. Fourth International Conference Document Analysis and Recognition (ICDAR'97). J. Sauvola, T. Seppanen, S. Haapakoski, M. Pietikainen. s.l. : icdar, 1997. Adaptive Document Binarization. p. 147.

60. Pietikainen, J. Sauvola and M. Adaptive document image binarization. Patt. Recogn. 2000, Vol. 33, p. 225 236.

61. CoderSource.net.

http://web.archive.org/web/20080610170124/http://www.codersource.net/csharp colorimagetobinary.aspx. http://web.archive.org/. [Online] 2005.

62. А., Розенфельд. Распознавание и обработка изображений. М : Мир - 274 с, 1987.

63. Построение словаря авто-адаптивного фонта. А.Н.Сотников, И.Н.Чередниченко. Алушта, Крым : Материалы XVII Международной конференции по вычислительной механике и современным прикладным программным системам (ВМСППС'2011), 2011. pp. 218-220.

64. Система публикаций документов в электронных библиотеках с использованием автоадаптивного шрифта. И.Н.Чередниченко. Гурзуф, Крым: Приложение к журналу «Открытое образование» Материалы ХХХХ-ой Международной конференции и X Международной

конференции молодых ученых «Информационные технологии в науке, образовании, телекоммуникации и бизнесе» IT+SE'12, Майская сессия, 2012. pp. 186-189.

65. Построение системы анализа качества графических объектов. И.Н.Чередниченко. Гурзуф, Крым : Приложение к журналу «Открытое образование» Материалы XL-ой Международной конференции и X Международной конференции молодых ученых «Информационные технологии в науке, социологии и бизнесе» IT+SE'12, Осенняя сессия, 2012. pp. 54-56.

66. И.Н.Чередниченко. Биометрические технологии идентификации. Теоретические и прикладные задачи нелинейного анализа. ВЦ РАН, 2005 г., стр. 132-142.

67. И.Н.Чередниченко. Построение системы биометрической идентификации. Программные продукты и системы. 2007 г., № 2, стр. 2022.

68. http://nasledie.enip.ras.ru/index.html. Научное Наследие РАН. [Online]

69. Wang Z., Zhang D. Progressive Switching Median Filter for the Removal of Impulse Noise from Highly Corrupted Im-ages. IEEE Trans. Circuits Systems. 1999, Vol. II, 46, pp. 78-80.

70. Scanned-Display Computer Graphics. Noll, A. Michael. 3, 1971, Communications of the ACM, Vol. 14, pp. 143-150.

71." Метод преобразования контурного изображения из растровой в векторную форму. Решетников, В.Н., Еременко, Г.В. and Трофимова, Е.Г. Тверь : Труды Всесоюзного семинара «Программное обеспечение новых информационных технологий», 1991.

72. М., Тарг С. Физическая энциклопедия. М.: : Советская энциклопедия, 1999. pp. 624—625.

73. http://www.w3.org/TR/2008/WD-html5-20080122/. HTML-5. [Online]

74. http://ln.hixie.ch/?start=1089635050&count=l. Extending HTML. [Online]

75. Визуализация геометрических образов. B.H., Решетников and Б.М.Пранов. Москва : Тезисы докладов 3 Межд. Конф. «Инф. технологии и телекоммуникации в образовании», 2001.

76. Aфdobe.com. http://www.adobe.com/ru/products/flashplayer.html. A(pdobe.com. [Online] 2014.

77. В.А.Березнев, А.С.Сенаторов, И.Н.Чередниченко. О задаче объединения график. Вопросы кибернетики, вып. 119. 1997 г.

78. Г.Вагнер. Основы исследования операций. М. : Мир, т.2, 1973.

79. Third International Conference, on Document Analysis and Recognition. H.S.Don. 1995. A noise attribute thresholding method for document image binarization. p. 231 234.

80. М.А.Айзерман, Э. М.Браверман, Л.И.Розеноэр. Метод потенциальных фунщий в теории обучения машин. М.: Наука, 1970.

81. M.Pietikainen, J.Sauvola. Adaptive document image binarization. Patt. Recogn. Vol. 33.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.