Модели и программная реализация распознавания русской речи на основе морфемного анализа

Карпов, Алексей Анатольевич

Модели и программная реализация распознавания русской речи на основе морфемного анализа тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Карпов, Алексей Анатольевич

Карпов, Алексей Анатольевич
кандидат технических наук
2007

Специальность ВАК РФ05.13.11

Количество страниц 132

Карпов, Алексей Анатольевич. Модели и программная реализация распознавания русской речи на основе морфемного анализа: дис. кандидат технических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Санкт-Петербург. 2007. 132 с.

Оглавление диссертации кандидат технических наук Карпов, Алексей Анатольевич

Введение.

Положения, выносимые на защиту:.

Глава 1. Анализ требований и подходов к автоматическому распознаванию речи.

1.1. Основные требования к современным системам распознавания речи.

1.2. Базовые подходы к автоматическому распознаванию речи.

1.3. Распознавание речи на основе вероятностных моделей.

1.3.1. Признаковое описание речевого сигнала.

1.3.2. Акустико-фонетическое моделирование речи.

1.3.3. Статистическое моделирование языка предметной области.

1.3.4. Метод распознавания слитной речи.

1.4. Обзор моделей распознавания русской речи.

Выводы по главе 1.

Глава 2. Модель обучения распознавателя русской речи с морфемным представлением языка.

2.1. Особенности разработки модели распознавания русской речи.

2.2. Архитектура модели обучения с включением морфемного анализа русского языка.

2.3. Подготовка текстовых и речевых баз данных модели обучения.

2.4. Декомпозиция слов предметной области на морфемы.

2.5. Создание и оценка морфемной модели языка.

2.6. Фонетическое транскрибирование обучающих текстов.

2.6.1. Выбор фонетического алфавита.

2.6.2. Фонетическое транскрибирование текста.

2.7. Создание и обучение моделей акустико-фонетических единиц речи.

Выводы по главе 2.

Глава 3. Модель распознавания русской речи с морфемным уровнем обработки.

3.1. Выделение речи в звуковом сигнале методом анализа спектральной энтропии.

3.1.1. Математическая основа метода.

3.1.2. Экспериментальная проверка метода.

3.2. Выбор метода признакового описания речи.

3.2.1. Спектрально-разностные признаки речевого сигнала.

3.2.2. Оценка систем параметрического представления речи.

3.3. Метод распознавания русской слитной речи с включением морфемной обработки языка и речи.

Выводы по главе 3.

Глава 4. Программная реализация модели распознавания русской речи

4.1. Архитектура программной реализации модели распознавания русской речи SIRIUS.

4.2. Модель голосового доступа к электронному справочному каталогу.

4.2.1. Описание модели голосового доступа к каталогу.

4.2.2. Сравнение моделей распознавания русской речи по точности распознавания.

4.2.3. Сравнение моделей распознавания русской речи по скорости обработки.

4.3. Модель бесконтактного управления компьютером.

4.3.1. Архитектура модели.

4.3.2. Модуль распознавания голосовых команд оператора.

4.3.3. Эксперименты с моделью бесконтактной работы с компьютером.

Выводы по главе 4.

Введение диссертации (часть автореферата) на тему «Модели и программная реализация распознавания русской речи на основе морфемного анализа»

Актуальность темы диссертации. Вопросами автоматического распознавания речи ученые стали заниматься с момента появления первых компьютеров, поскольку текстовый командный интерфейс взаимодействия с ЭВМ не обеспечивал приемлемой скорости и естественности работы. За многие годы исследований был разработан широкий спектр методов и компьютерных программ, направленных на решение проблем распознавания речи.

Сегодня получены многообещающие результаты и созданы действующие коммерческие системы, в основном, для английского языка, а также испанского, французского, японского, китайского и арабских языков. Это во многом связано с экономическими и политическими аспектами развития речевых технологий. Например, английский язык является наиболее распространенным и поэтому инвестиции в развитие технологий для автоматизированной обработки английской речи окупились достаточно быстро. В то же время речевым технологиям других языков уделяется недостаточно внимания, вследствие чего их развитие несколько сдерживается.

Между тем, русский язык является одним из самых популярных языков мира, на нем говорит свыше двадцати процентов населения Европы. Несмотря на это, действующих систем автоматического распознавания русской слитной речи фактически не существует. Кроме экономических проблем, на развитие Российских речевых технологий, в первую очередь, влияют особенности русского языка и речи, вызывающие сложности в процессе обработки. Основные из них: отсутствие строгих грамматических конструкций построения предложений, а также многочисленные правила словообразования, фонетического представления слов и расстановки ударений с большим количеством исключений.

Для оценки эффективности разрабатываемых систем автоматического распознавания речи применяют много показателей, интегральными же критериями оценки производительности таких систем служат точность распознавания речи (звуков, слов или фраз) и скорость обработки речевого сигнала. В идеальном случае система должна обеспечивать практически 100% точность распознавания речи при мгновенном выводе результата. Тем не менее, учитывая ограниченные возможности существующих вычислительных ресурсов при решении таких сложных интеллектуальных задач как автоматическое распознавание речи человека, приходится находить компромисс между точностью и скоростью обработки.

Для улучшения характеристик распознавания русской слитной речи (в первую очередь скорости обработки), в диссертации предложен дополнительный морфемный уровень описания языка и речи, который вводится в каждый из двух этапов функционирования модели: обучение и распознавание. При этом за счет декомпозиции слов на морфемы обеспечивается акустико-лексическое моделирование большого количества словоформ языка при существенном сокращении размера словаря распознавания, что позволяет улучшить производительность и другие характеристики модели распознавания русской речи. Данный подход может быть также успешно использован и для других синтетических языков, например языков славянской группы (чешский, польский, украинский, белорусский, и т.д.), имеющих сходные с русским языком механизмы словообразования.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка модели дикторонезависимого распознавания русской слитной речи с большим словарем, которая обеспечивает ускорение процесса обработки речи при сохранении точности распознавания. Для достижения поставленной цели в ходе диссертационной работы поставлены и решены следующие задачи:

1. Анализ подходов к распознаванию английской и русской речи.

2. Выбор языковых единиц, наиболее подходящих для распознавания русской речи с большим словарем.

3. Разработка методов для модели обучения распознавателя русской речи, учитывающего специфику и морфологические особенности русского языка.

4. Разработка методов для модели распознавания русской речи с морфемным уровнем обработки языка и речи.

Методы исследования. Для решения поставленных задач в работе используются методы теории информации, теории множеств, теории вероятности, экспертного и статистического анализа. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Научная новизна работы состоит в следующем:

1. Разработана модель обучения распознавателя русской речи, включающая блоки создания акустических моделей русских фонем, декомпозиции словоформ языка и создания словаря лексических единиц с размером меньше слова (морфем), а также морфемной статистической модели языка прикладной области.

2. Разработана модель автоматического распознавания слитной русской речи, учитывающая механизмы словообразования и морфологические характеристики лексики русского языка и позволяющая существенно ускорить процесс распознавания за счет сокращения размера словаря.

3. Создана программная реализация распознавателя русской слитной речи с большим словарем SIRIUS, содержащая морфемный уровень обработки. Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет тщательного анализа состояния исследований в данной области, подтверждается корректностью предложенных моделей, алгоритмов и согласованностью результатов, полученных при компьютерной реализации, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные модели, алгоритмы и программные реализации направлены на разрешение проблемы распознавания русской речи с большим словарем, возникающую из-за богатых механизмов словообразования и морфологических характеристик русского языка.

Предложенная модель обучения морфемного распознавателя русской речи позволяет на выходе получить три основных компонента, необходимых для функционирования модели распознавания: морфемный распознаваемый словарь с соответствующими фонетическими транскрипциями, статистическую морфемную модель языка предметной области и модели акустических фонетических единиц речи. Причем, за счет введения в модель уровня морфемного представления сокращается размер распознаваемого словаря, так как в процессе словообразования часто используются одни и те же морфемы, а также обеспечивается более полное покрытие пространства слов языка.

Разработанная модель распознавания речи, основанная на стохастическом моделировании речи посредством скрытых Марковских моделей и статистическом n-граммном моделировании языка предметной области с введением дополнительного уровня морфемного распознавания и синтеза слов, позволяет производить процесс распознавания с приемлемой точностью, обеспечив при этом значительный рост скорости обработки и устойчивости к синтаксическим отклонениям произнесенной фразы в ходе человеко-машинного взаимодействия по сравнению с традиционной целословной моделью распознавания речи.

Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: ЕС FP6-IST-2002-507609 SIMILAR Network of Excellence «The European taskforce creating human-machine interfaces SIMILAR to human-human communication»; INTAS № 04-77-7404 «Development of multi-voice and multi-language Text-to-Speech (TTS) and Speech-to-Text (STT) conversion system (languages: Belarussian, Polish, Russian)» и INTAS № 05-1000007-426 «Introduction of the automatic Russian speech recognition system SIRIUS in telecommunications»; ОИТВС PAH № 4.2 «Разработка методов статистической обработки речи для дикторонезависимых инфотелекоммуникационных приложений»; СПб НЦ РАН № М06-2.1К-29 «Разработка методов и программного обеспечения для дикторонезависимого распознавания русской речи с большим словарем». Кроме того, результаты работы использованы при разработке средств голосового доступа к рубрикатору электронного каталога «Желтые Страницы» в рамках инновационного проекта совместно с компанией «NewVoice».

Апробация результатов работы. Основные положения и результаты диссертационной работы представлялись на Международных конференциях: «Interspeech - ICSLP 2006» (США, 2006); «Европейской конференции по обработке сигналов» EUSIPCO (Италия, 2006; Турция, 2005); «Intelligent Information Processing and Web Mining» (Польша, 2005); «Интеллектуальные многопроцессорные системы. Искусственный интеллект» (Украина, 2006; Россия, 2005); «Речь и Компьютер» SPECOM (Санкт-Петербург, 2006, 2004, 2002; Греция, 2005; Москва, 2003).

Публикации. Основные результаты по материалам диссертационной работы опубликованы в 24 печатных работах, в том числе в трех журналах ВАК («Известия ТРТУ», «Известия вузов. Приборостроение» и «Pattern Recognition and Image Analysis») и монографии серии «Информатика: неограниченные возможности и возможные ограничения» издательства «Наука».

Структура и объем работы. Диссертация объемом 129 машинописных страниц, содержит введение, четыре главы и заключение, список литературы (121 наименование), 8 таблиц, 44 рисунка.

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Карпов, Алексей Анатольевич

Выводы по главе 4

1) Представлена программная реализация SIRIUS, включ ающая в себя разработанные в ходе диссертационной работы модели обучения и распознавания русской речи, а также модули для записи речевых данных и анализа результатов распознавания речи.

2) Приведено сравнение реализованных целословной, морфемной, слоговой и фонемной моделей автоматического распознавания русской речи по критериям точности распознавания на уровне фонем, слов и фраз, а также времени распознавания фраз. Отмечен рост скорости распознавания при применении морфемной модели на 75% при незначительном падении точности распознавания.

3) Разработанные в диссертации модели были реализованы в диалоговой модели голосового доступа к электронному справочному каталогу, представлена архитектура данной модели и результаты ее тестового применения. Предложенная модель голосового доступа, не учитывает концовки слов в распознанной гипотезе фразы, что позволяет поднять точность распознавания фраз на 7% по сравнению с базовой морфемной моделью и практически достичь уровня целословного распознавания речи.

4) Реализована многомодальная модель ICanDo для бесконтактного управления компьютером (полностью без клавиатуры и мышки), использующая модули автоматического распознавания голосовых команд и отслеживания положения головы оператора для работы с графическим пользовательским интерфейсом персонального компьютера. Модель предназначается, в основном, для пользователей-инвалидов, имеющих проблемы с двигательными функциями рук и показала хорошие результаты в ходе экспериментов с потенциальными пользователями.

Заключение

При автоматическом распознавании речи для любого языка существует ряд общих проблем, для решения которых прикладываются усилия ученых и разработчиков всего мира. Основными из них являются: обеспечение слитного ввода речи, дикторонезависимость, повышение точности и скорость обработки речи, улучшение робастности систем и т.д. Вторую группу проблем составляют особенности конкретных языков, для которых применяются распознаватели. Так, для русского языка (а также для многих славянских и ряда других языков) такой особенностью является сложный механизм словообразования, из-за чего образуется огромное количество словоформ в языке.

В результате проведенной работы были разработаны модели, предназначенные для обработки русской слитной речи на различных уровнях и предложен подход к распознаванию, использующий морфемный уровень представления русского языка и речи, что позволяет значительно сократить количество распознаваемых языковых единиц в модели и за счет этого повысить скорость обработки, сохранив при этом приемлемую точность распознавания.

Предложены модели обучения распознавателя речи и дикторонезависимого распознавания русской слитной речи. Модель обучения позволяет создать статистическую морфемную модель языка прикладной области, морфемный словарь с фонетическими транскрипциями и акустико-фонетические модели русской речи. Эти базы данных необходимы для функционирования модели распознавания, которая содержит морфемный уровень представления русского языка и речи, и позволяет производить распознавание речи по морфемным единицам с последующим синтезом гипотез слов и фраз из цепочек морфем. В ходе экспериментов морфемная модель сравнивалась с целословной, слоговой и фонемной моделями и показала оптимальные результаты по критериям точности распознавания и времени обработки.

Предложенные модели обучения и распознавания объединены в программную реализацию SIRIUS, позволяющую производить дикторонезависимое распознавание русской слитной речи с большим словарем. На базе данной реализации разработаны прикладные модели для голосового доступа к справочному электронному каталогу и многомодальная модель для бесконтактного управления компьютером. Разработанные в диссертационной работе методы, модели и программные средства будут использованы в дальнейшем при создании интеллектуальных приложений человеко-машинного речевого и многомодального взаимодействия.

Список литературы диссертационного исследования кандидат технических наук Карпов, Алексей Анатольевич, 2007 год

1. Александров, В.В. Структурный анализ диалога / В.В. Александров,

2. A.В. Арсентьева, А.И. Семенков // Ленинград: ЛНИВЦ, 1983, 49 с.

3. Афанасьев, В.П. Архитектура речевого телефонного терминала МАРС-2 «Электроника МС7602» / В.П. Афанасьев и др. // Труды Всесоюзного семинара АРСО-14, Каунас, 1986, С. 77.

4. Баранников, В.А. Пакет программ построения систем распознавания речи /

5. B.А. Баранников, А.А. Кибкало // Труды III Всероссийской конференции «Теория и практика речевых исследований» АРСО-2003. Москва, МГУ им. М.В. Ломоносова, Сентябрь 2003, С. 7-12.

6. Беллман, Р. Динамическое программирование / Р. Беллман; М.: ИЛ, 1960, 400 с.

7. Бияков, О.А. Медианное сглаживание временных рядов / О.А. Бияков // Вестник КузГТУ. 1999. № 3. С. 55 -56.

8. Васьков, C.T. Открытые системы реального времени / C.T. Васьков, В.Н. Вьюхин, И.И. Коршевер // Информатика и вычислительная техника. М.: Изд-во ВИМИ, 1995, вып. 1-2, С. 96-106.

9. Винцюк, Т.К. Модуль анализатора речи СРД «Речь-2» / Т.К. Винцюк, А.Г. Скрипник // Тезисы докладов 16-го всесоюзного семинара (АРСО 16), 1991.-С. 250-251.

10. Винцюк, Т. К. Распознавание слов устной речи методами динамического программирования/ Т.К. Винцюк //М.: Кибернетика, 1968.- №1.1. C. 15-22.

11. Галунов, В.И. Состояние исследований в области речевых технологий и задачи, выдвигаемые государственными заказчиками / В.И. Галунов, и др. // Доклад на секции по автоматическому распознаванию и синтезу речи РАН. М., 2002.

12. Галушкин, А.И. Теория нейронных сетей / А.И. Галушкин; М.:ИПРЖР, 2000,416 с.

13. И. Геппенер, В.В. Вейвлет-преобразование в задачах цифровой обработки сигналов: Учебное пособие / В.В. Геппенер, Д.А. Черниченко, С.А. Экало // СПб.: Изд-во СПбГЭТУ, 2002. 78 с.

14. Гринберг, Д. Квантитативный подход к морфологической типологии языков / Д. Гринберг // HJI. Вып. III. М., 1963.

15. Дегтярев, Н.П. Параметрическое и информационное описание речевых сигналов / Н.П. Дегтярев // Минск: Объединенный институт проблем информатики НАН Беларуси, 2003, 216 с.

16. Джелинек, Ф. Разработка экспериментального устройства, распознающего раздельно произносимые слова / Ф. Джелинек // ТИИЭР. Речевая связь с машинами, т.73, №11, 1985, с. 91-100.

17. Джелинек, Ф. Распознавание непрерывной речи статистическими методами /Ф. Джелинек//ТИИЭР 64, №4, 1976, с. 131-160.

18. Зализняк, А.А. Грамматический словарь русского языка: Словоизменение / А.А. Зализняк // 4-е изд., испр. и доп. — М.: Руские словари, 2003.

19. Иванова, Т.И. Компьютерные технологии в телефонии / Т.И. Иванова // Эко-Трендз, М., 2002.

20. Карпов, А.А. SIRIUS система дикторонезависимого распознавания слитной русской речи / А.А. Карпов, A.JI. Ронжин, И.В. Ли // Известия ТРТУ, № ю, 2005, С. 44-53.

21. Кибкало, А.А. Разработка системы распознавания русской речи / А.А.Кибкало и др. // Вопросы атомной науки и техники. Сер. Математическое моделирование физических процессов. 2003. Вып. 3. С. 8-20.

22. Косарев, Ю.А. Естественная форма диалога с ЭВМ /Ю.А. Косарев -Л.: Машиностроение, 1989. 143 с.

23. Ли, И.В. Проектирование систем речевого диалога / И.В. Ли, А.Л. Ронжин // Труды СПИИРАН. Вып. 3, т. 1. — СПб.: Наука, 2006, С. 320-338.

24. Мазуренко, И.Л. Многоканальная система распознавания речи / И.Л. Мазуренко // Сборник трудов VI всероссийской конференции «Нейрокомпьютеры и их применение», Москва, 2000.

25. Маркел, Д.Д. Линейное предсказание речи / Д.Д. Маркел, А.Х. Грей; М.: Связь, 19В0.-308 с.

26. Марков, А.А. Об одном применении статистического метода / А.А. Марков // Известия АН, сер.6, X, №4,1916, 239 с.

27. Моттль, В.В. Скрытые Марковские модели в структурном анализе сигналов / В.В. Моттль, И.Б. Мучник; М.: Физматлит, 1999, 351 с.

28. Мясников, Л.Л. Объективное распознавание звуков речи / Л.Л. Мясников // ЖТФ. 1943. -№ 3. - С. 109-115.

29. Никифоров, В.О. Адаптивное и робастное управление с компенсацией возмущений / В.О. Никифоров // СПб.: Наука, 2003,282 с.

30. Осовский, С. Нейронные сети для обработки информации / С. Оссовский, пер. с польского И. Рудинского. -М.: Финансы и статистика, 2004, 344 с.

31. Петровский, А.А. Методы построения устройств распознавания речи на базе гибрида нейронная сеть/скрытая Марковская модель / А.А. Петровский // Нейрокомпьютеры: разработка, применение, 2002, № 12, с. 26-36.

32. Потапова, Р.К. Речевое управление роботом / Р.К. Потапова // М.:КомКнига, 2005,328 с.

33. Потапова, Р.К. Речь: коммуникация, информация, кибернетика / Р.К. Потапова //М.:Едиториал УРСС, 2003, 568 с.

34. Рабинер, Л. СММ и их применение в избранных приложениях при распознавании речи / Л. Рабинер // ТИИЭР. 1989. - Т. 77. - №2. -С. 86-120.

35. Рабинер, Л. Цифровая обработка речевых сигналов / Л. Рабинер, Р. Шафер М.: Радио и связь, 1987.

36. Распознавание слуховых образов. / Под ред. Н.Г. Загоруйко -Новосибирск: «Наука», 1970.-340 с.

37. Ронжин, А. Метод распознавания слитной речи на основе анализа сигнала в скользящем окне и теории размытых множеств / А. Ронжин и др. // Научно-теоретический журнал «Искусственный интеллект», №4. Донецк, Украина, 2002, С. 256-263.

38. Ронжин, A.J1. Речевой и многомодальный интерфейсы / A.JL Ронжин, А.А. Карпов, И.В. Ли; М.: Наука, 2006 - (Информатика: неограниченные возможности и возможные ограничения), 173 с.

39. Ронжин, А.Л. Система автоматического распознавания русской речи SIRIUS / А.Л. Ронжин, А.А. Карпов, И.В. Ли // Научно-теоретический журнал «Искусственный интеллект», № 3.- Донецк, Украина, 2005, С. 590-601.

40. Ронжин, А.Л. Фонетико-морфологическая разметка речевых корпусов для распознавания и синтеза русской речи / А.Л. Ронжин и др. // Информационно-управляющие системы, Вып. 25, т. 6. — СПб.: ГУАП, 2006, С. 24-34.

41. Русская грамматика: В 2 т. / Редкол.: Н.Ю. Шведова (гл. ред.) и др.. Т. 1: Фонетика. Фонология. Ударение. Интонации. Словообразование. Морфология / [Н.С. Авилова, А.В. Бондарко, Е.А. Брызгунова и др.] М. : Наука, 1980, 783 с.

42. Сайт белорусской компании Сакрамент http://www.sakrament.com/viewprod.php?TopId=30&ProdId=24

43. Сайт библиотеки М. Мошкова http://www.lib.ru/

44. Сайт инструментария Hidden Markov Model Toolkit http://htk.eng.cam.ac.uk/

45. Сайт компании Истрасофт http://www.istrasoft.ru/voice cmd.html

46. Сайт телекоммуникационной компании NewVoice http://www.newvoice.ru/

47. Сайт компании Nuance Corporation http://www.nuance.com

48. Сайт конкурса многомодальных интерфейсов Loco Mummy Contest http://www.locomummv.net

49. Сайт проекта Oomnik / Корнеслов http://www.oomnik.ru

50. Сайт Европейского проекта FP6 SIMILAR Network of Excellence http://www.similar.ee

51. Сайт проекта STARLING http://starling.rinet.ru

52. Сайт рабочей группы АОТ http://www.aot.ru

53. Сайт системы «Telepat» https://www.telepat.ru

54. Сайт системы «Горыныч» http://www.nd.ru/voice/

55. Сайт системы SAMPA http://www.phon.ucl.ac.uk/home/sampa/home.htm

56. Сайт электронного каталога «Желтые страницы» http://www.vell.ru/

57. Сайт Центра речевых технологий http://speechpro.com/production/?id=471 &fid=44

58. Сапожков, М.А. Речевой сигнал в кибернетике и связи / М.А. Сапожков; -М.: Связьиздат, 1963. 452 с.

59. Сборник статей профессионально-реабилитационного центра Санкт-Петербурга, «Человек и здоровье», 2006, 135 с.

60. Скрелин, П.А. Сегментация и транскрипция / П.А. Скрелин; СПб.: СПбГУ, 1999.

61. Современный русский литературный язык / под ред. П.А. Леканта. М., 1996, 160 с.

62. Сокирко, А.В. Морфологические модули на сайте www.aot.ru / А.В. Сокирко // Труды Международной конференции Диалог-2004, М.: Наука, 2004. С. 559.

63. Соколов, Б.В. Концептуальные основы оценивания и анализа качества моделей и полимодельных комплексов / Б.В. Соколов, P.M. Юсупов // Теория и системы управления. 2004. -№ 6 -С. 5-16.

64. Станкевич, Л.А. Интеллектуальные роботы и системы управления / Л.А. Станкевич // Нейрокомпьютеры: разработка и применение, № 8-9, 2005.

65. Страуструп, Б. Язык программирования С++ / Б. Страуструп // М.:БИНОМ, 2001.- 1099 с.

66. Трунин-Донской, В.Н. Опознавание набора слов с помощью цифровой вычислительной машины / В.Н. Трунин-Донской // Работы по технической кибернетике. М.: ВЦ АН СССР, 1967. - С. 37-51.

67. Ушакова, Т.Н. Проблема внутренней речи в психологии и психофизиологии. Психологические и психофизиологические исследования речи / Т.Н. Ушакова М.: Наука, 1985. - С. 13-26.

68. Фант, Г. Анализ и синтез речи / Г. Фант; пер. с англ. B.C. Лозовского и Н.В. Бахмутовой под ред. Н.Г. Загоруйко. Новосибирск, «Наука», 1970,167 с.

69. Холоденко, А.Б. Использование лексических и синтаксических анализаторов в задачах распознавания для естественных языков /

70. A.Б. Холоденко // Интеллектуальные системы. T.4, вып. 1-2, 1999, с. 185-193.

71. Холоденко, А.Б. О построении статистических языковых моделей для систем распознавания русской речи / А.Б. Холоденко // Интеллектуальные системы, т.6, вып. 1-4, 2002. С. 381-394.

72. Цымбал, В.П. Теория информации и кодирование / В.П. Цымбал // Киев.:Высшая Школа, 1977, 288 с.

73. Чучупал, В.Я. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи / В.Я. Чучупал, К.А. Маковкин, А.В. Чичагов // Искусственный интеллект, 2002, №2, с. 575-579.

74. Шелепов, В.Ю. К проблеме пофонемного распознавания / В.Ю. Шелепов,

75. B.Ю. Ниценко // Искусственный интеллект. 2005. - № 4. - С. 662-668.

76. Щерба, Л.В. Языковая система и речевая деятельность / Л.В. Щерба; Л., 1974.

77. Arisoy, Е. A Unified Language Model for Large Vocabulary Continuous Speech Recognition of Turkish / E. Arisoy, et al // Signal Processing, № 86(10), 2006, pp.2844-2862.

78. Atal, B.S. Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification / B.S. Atal // Journal of the Acoustical Society of America, Vol. 55,1974, pp. 1304-1312.

79. Baum, L.E. An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes / L.E. Baum // Inequalities, vol.3,1972, pp. 1-8.

80. Bouguet, J.-Y. Pyramidal implementation of the Lucas-Kanade feature tracker / J.-Y. Bouguet // Technical Report, Intel Corporation, Microprocessor Research Labs, 2000.

81. Chesta, C. Connected Digit Recognition Using Short and Long Duration Models / C. Chesta, P. Laface, F. Ravera // Proceedings of ICASSP'99 Conference, Phoenix, USA, 1999.

82. Cox, R.V. Speech and Language Processing for Next-Millennium Communications Services / R.V. Cox, et al // Proceedings of the IEEE, Vol. 88, No. 8, 2000, pp. 1314-1337.

83. Creutz, M. Unsupervised discovery of morphemes / M. Creutz, K. Lagus. // Proceedings of ACL/SIGPHON'2002, 2002, pp. 21-30.

84. Freeman, D. A Voice Activity Detector for the Pan-European Digital Cellular Mobile Telephone Service / D. Freeman, C. Sonthcott, I. Boyd // IEEE Colloquium Digitized Speech Communication via Mobile Radio, 1988, pp. 61-65.

85. Fujimoto, M. Evaluation of noisy speech recognition based on noise reduction and acoustic model adaptation on the AURORA2 tasks / M. Fujimoto, Y. Ariki //Proceedings of ICSLP'2002, Denver, USA, 2002.

86. Furui, S. 50 years of progress in speech and speaker recognition / S. Furui // Proceedings of SPECOM'2005, Patras, Greece, 2005, pp. 3-9.

87. Haton, J.-P. Automatic speech recognition: Past, Present and Future / J.-P. Haton // Proceedings of SPECOM'2004, St. Petersburg: "Anatoliya", 2004, pp. 3-7.

88. Hirsimaki, Т. Unlimited Vocabulary Speech Recognition with Morph Language Models Applied to Finnish / T. Hirsimaki, et al // Computer Speech and Language, Vol. 20, № 4, 2006, pp. 515-541.

89. Hori, T. An extremely-large-vocabulary approach to named entity extraction from speech / T. Hori, A. Nakamura // Proceedings of ICASSP'2006, Toulouse, France, 2006.

90. International Phonetic Association. Handbook of the International Phonetic Association: A guide to the use of the International Phonetic Alphabet. Cambridge: Cambridge University Press, 1999.

91. Jelinek, F. Perplexity A measure of difficulty of speech recognition tasks / F. Jelinek, R.L. Mercer, L.R. Bahl // Proceedings of 94-th Meeting of the Acoustical Society of America, 1977.

92. Kanevsky, D., Monkowski M., Sedivy J. Large vocabulary speaker-independent continuous speech recognition in Russian language / D. Kanevsky, M. Monkowski, J. Sedivy // Proceedings of SPECOM'1996, St.Petersburg, 1996, pp.117-121.

93. Kanungo, T. An Efficient k-Means Clustering Algorithm: Analysis and Implementation / T. Kanungo, et al // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002, vol. 24, №7. p. 881-892.

94. Karpov, A. A multi-modal system ICANDO: Intellectual Computer AssistaNt for Disabled Operators / A. Karpov, A. Ronzhin, A. Cadiou // Proceedings of Interspeech'2006, Pittsburgh, PA, USA, 2006, pp. 1998-2001.

95. Karpov, A. Hands-free Mouse Control System for Handicapped Operators / A. Karpov, A. Cadiou // Proceedings of SPECOM'2006, St. Petersburg: "Anatoliya", 2006, pp. 525-529.

96. Katz, S. Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer / S. Katz // IEEE Transactions on Acoustic, Speech and Signal Processing, 1987, vol. 35, №. 3, pp. 400-401.

97. Kosarev, Yu. Robust Speech Understanding for a Voice Control System / Yu. Kosarev, et al // Proceedings of SPECOM'2002, St. Petersburg, 2002, pp. 13-18.

98. Kurimo, M. Unsupervised Segmentation of Words into Morphemes Morpho Challenge 2005. Application to Automatic Speech Recognition / M. Kurimo, et al //Proceedings of Interspeech'2006, Pittsburg, USA, pp. 1021-1024.

99. Kwon, O.W. Korean large vocabulary continuous speech recognition with morpheme-based recognition units / O.W. Kwon, J. Park // Speech Communication, №39,2003, pp. 287-300.

100. Manning, C.D. Foundations of Statistical Natural Language Processing / C.D. Manning, H. Schutze; MIT Press, 1999.

101. Oparin, I. Stem-Based Approach to Pronunciation Vocabulary Construction and Language Modeling for Russian / I. Oparin, A. Talanov // Proceedings of SPECOM'2005, Patras, Greece, 2005, pp. 575-578.

102. Oviatt, S.L. Multimodal interfaces / S.L. Oviatt // Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies and Emerging Applications. Lawrence Erlbaum Assoc. Mahwah, NJ, USA, 2003, pp. 286-304.

103. Picone, J. Continuous Speech Recognition Using Hidden Markov Models / J. Picone // IEEE ASSP Magazine, Vol. 7, No. 3, 1990.

104. Pollard, С J. Head-driven Phrase Structure Grammar / C.J. Pollard, I.A. Sag; Chicago University Press, Chicago, 1994.

105. Potapova, R. Identification of prosodic features of emotional state of a speaker / R. Potapova, V. Potapov // Proceedings of SPECOM'2005. Patras, Greece,2005, pp. 25-32.

106. Potapova, R. To the problem of multi-language phonetic database formation: vibrants in English, German, Russian and Chechen / R. Potapova, E. Loseva // Proceedings of SPECOM'2006, St. Petersburg: "Anatoliya", 2006, pp. 445-448.

107. Potryasaev, S. Quality and Quantity Estimation and Analysis of Multimodal Systems for Human-Computer Interaction / S. Potryasaev, B. Sokolov, R. Yusupov // Proceedings of SPECOM'2006, St. Petersburg: "Anatoliya",2006, pp. 158-167.

108. Psutka, J. Large Vocabulary ASR for Spontaneous Czech in the MALACH Project / J. Psutka, et al // Proceedings of Eurospeech'2003, Geneva, Switzerland, 2003, pp. 1821-1824.

109. Rabiner, L. Fundamentals of Speech Recognition / L. Rabiner, B. Juang New Jersey: Prentice-Hall, Englewood Cliffs, USA, 1993.

110. Rabiner, L.R. A tutorial on Hidden Markov Models and Selected Applications in SpeechRecognition / L.R. Rabiner // Proceedings of the IEEE, vol, 77. no.2, 1989, pp. 257-284.

111. Shen, J.-L. Robust Entropy-based Endpoint Detection for Speech Recognition in Noisy Environments / J.-L. Shen, J.-W. Hung, L.-S. Lee // Proceedings of ICSLP'1998, Sydney, Australia, 1998.

112. Strom, N. Continuous Speech Recognition in the WAXHOLM Dialogue System / N. Strom // Stockholm QPSR, 1996. pp. 67-95.

113. Surendran, D. Dialog Act Tagging with Support Vector Machines and Hidden Markov Models / D. Surendran, G. Levow // Proceedings of Interspeech'2006, Pittsburgh, PA, USA, 2006, pp. 1950-1953.

114. Tang, M. Improvements to Bucket Box Intersection Algorithm for Fast GMM Computation in Embedded Speech Recognition Systems / M. Tang, A. Ganapathiraju // Proceedings of Interspeech'2006. Pittsburgh, USA, pp. 617-620.

115. Timofeev, A.V. Development of man-machine interfaces and virtual reality means for integrated medical systems / A.V. Timofeev, et al. // Proceedings of SPECOM'2006, St. Petersburg: "Anatolya", 2006, pp. 175-178.

116. Trentin, E. A survey of hybrid ann/hmm models for automatic speech recognition / E. Trentin, M. Gori // Neurocomputing, vol. 37, no. 1-4, 2001, pp. 91-126.

117. Turunen, M. Evaluation of a Spoken Dialogue System with Usability Tests and Long-term Pilot Studies: Similarities and Differences / M. Turunen, J. Hakulinen, A. Kainulainen // Proceedings of Interspeech'2006, Pittsburgh, USA, 2006, pp. 1057-1060.

118. Varile, G. Survey of the State of the Art in Human Language Technology / G. Varile, A. Zampolli // Cambridge University Press, 1997.

119. Viterbi, A.J. Error bounds for convolutionalcodes and an asymmetrically optimum decoding algorithm / A.J. Viterbi // IEEE Transactions on Information Theory, 1967. vol. IT-13, pp. 260-267.

120. Waheed, K. A robust algorithm for detecting speech segments using an entropy contrast / K. Waheed, K. Weaver, F. Salam // Proceedings of MWSCAS'2002, Oklahoma, USA, 2002.

121. Whittaker, E.W.D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English / E.W.D. Whittaker // PhD thesis, Cambridge University, Cambridge, 2000.

122. Young, S. The НТК Book / S. Young, et al // Cambridge University Engineering Department, 2002.

123. Young, S.J. Token Passing: A Conceptual Model for Connected Speech Recognition Systems / S.J. Young, N.H. Russel, J.H.S. Russel // CUED Technical Report, Cambridge University, 1989.

124. Комиссия в составе: председателя А.В. Лебедева, членов комиссии: М.Ю. Трибиса, Д.С. Солонского, рассмотрев представленные материалы по теме диссертационной работы Карпова А.А, установила, что:

125. Основные положения диссертационной работы были использованы при проведении совместных научно-исследовательских работ компании по инновационному проекту INTAS № 05-1000007-426.

126. Предложенные в работе алгоритмы и модели распознавания речи были реализованы в экспериментальной модели голосового доступа к рубрикатору электронного справочного каталога «Желтые Страницы».

127. Использование морфемной модели распознавания русской слитной речи позволило повысить скорость распознавания для задач с большим словарем, что особенно важно для телекоммуникационных задач массового обслуживания.

128. Внедрение программной реализации SIRIUS автоматического распознавания русской речи позволяет разрабатывать новые высокотехнологичные интеллектуальные платформы с возможностью автоматизации операторских функций.

129. Председатель комиссии: Технический директор1. Члены комиссии:

130. Руководитель отдела интеллектуальных сетей связи1. М.Ю.Трибпс1. Инженер-программист1. Д.С. Солонский197046, Сонкт — Петербург,П(''фог!нл,смя наб. 34,тел. +7 (812)335-05-15 факс; +7 812) 322-91--00, о —mail: conlact@newvoice.ru www.newvoice.ru

131. Председатель комиссии Руководитель отдела Информационных Технологий С.В. Рулев1. Члены комиссии

132. Технический директор Гуторов С.М.1. Технолог Балина Т.С.1. UCL Г1.boratoire de Telecommunications et Teledetection Universite catholique de Louvain (UCL) Louvain-la-Neuve, Belgique

133. University ! Щ catholique ye=i de Louvaint1. STATEMENT

134. After using A.A. Karpov's thesis:

135. Models and software realization for Russian speech recognition based on morphemic analysis"

136. The UCL committee, formed by Prof. Benoit Macq, Eng. Imre Varadi and Alexandre Cadiou considered the presented materials and decided that:

137. The speech recognition algorithms and models described in the thesis were realized in the multimodal system for hands-free computer control ICANDO.

138. The created software systems are used during the exhibitions (Loco Mummy Contest), research experiments and learning courses in our University.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат технических наук Карпов, Алексей Анатольевич

Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях2013 год, доктор технических наук Карпов, Алексей Анатольевич

Введение диссертации (часть автореферата) на тему «Модели и программная реализация распознавания русской речи на основе морфемного анализа»

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич

Автоматический анализ, распознавание и синтез тональной речи (на материале вьетнамского языка)1984 год, доктор технических наук Нгуен Ань Туан, 0

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Карпов, Алексей Анатольевич

Список литературы диссертационного исследования кандидат технических наук Карпов, Алексей Анатольевич, 2007 год