Инкорпорирование речевых компонентов в лингвистические обучающие системы тема диссертации и автореферата по ВАК РФ 10.02.21, кандидат филологических наук Ордин, Михаил Юрьевич

  • Ордин, Михаил Юрьевич
  • кандидат филологических науккандидат филологических наук
  • 2005, Москва
  • Специальность ВАК РФ10.02.21
  • Количество страниц 216
Ордин, Михаил Юрьевич. Инкорпорирование речевых компонентов в лингвистические обучающие системы: дис. кандидат филологических наук: 10.02.21 - Прикладная и математическая лингвистика. Москва. 2005. 216 с.

Оглавление диссертации кандидат филологических наук Ордин, Михаил Юрьевич

Введение

Глава I. Теоретические основы разработки фонетической обучающей 18 системы

1.1 Современные алгоритмы автоматического распознавания речи применительно к фонетическим обучающим системам

1.1.1 Алгоритмы анализа речевых сигналов применительно к 18 разработке речевых компонентов

1.1.2 Методы автоматического обнаружения фонетических и 43 фонологических ошибок

1.1.3 Устойчивость автоматического распознавания 44 иноязычной (интерферированной) речи

1.1.4 Методики автоматической оценки произношения и 53 произнесений обучающегося

1.2 Обзор существующих обучающих систем и принципы 58 разработки фонетического обучающего программного обеспечения

1.2.1 История развития обучающего программного 58 обеспечения фонетического профиля

1.2.2 Адекватная целям обучения реализация обратной связи 65 как основное требование к лингвистическим обучающим системам

1.2.3 Классификация обучающих программ фонетического 72 профиля

1.2.4 Принципы и этапы разработки обучающего 76 программного обеспечения

1.3 Лингвистическая интерференция

1.3.1 Феномен и виды лингвистической интерференции

1.3.2 Артикуляторный механизм и модели речепроизводства

1.3.3 Программная реализация динамической модели 107 артикуляции

Выводы

Глава II. Опыт создания обучающей фонетической системы на основе 120 акустико-перцептивного исследования межъязыковой интерференции

II. 1 Экспериментальное исследование русско-английской интерференции, проведенное на основе современных речевых технологий

II.1.1 Задачи экспериментального исследования интерференции

II. 1.2 Подготовка и проведение акустического экперимента 121 II. 1.3 Результаты акустического эксперимента

II.1.4 Аудиторский эксперимент

И. 1.5 Интерпретация результатов

II.2 Практические аспекты разработки фонетической обучающей 153 системы

11.2.1 Моделирование

11.2.2 Выбор парадигмы программирования

11.2.3 Инкорпорирование существующих компонентов 161 Microsoft SAPI

11.2.4 Разработка специальных речевых компонентов для 168 инкорпорирования в обучающие лингвистические системы фонетического профиля

Выводы

Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Введение диссертации (часть автореферата) на тему «Инкорпорирование речевых компонентов в лингвистические обучающие системы»

В наше время информационные технологии проникают практически в каждую сферу жизнедеятельности человека, в том числе в область обучения иностранным языкам. Одним из наиболее наукоемких и перспективных направлений в информационных технологиях являются речевые технологии. Полученные в этом направлении результаты используются повсеместно: в коммуникационной отрасли (телефония, IP-телефония, телекоммуникационные приложения), при разработке специального программного обеспечения (идентификаторы и верификаторы личности по голосу), в компьютерных приложениях распознавания речи, при разработке обучающего программного обеспечения и т.д. Развитие речевых технологий связано с успехами в компьютерных науках, в проектировании аппаратных средств и в анализе речи, акустической фонетике [Потапова, 1999 а].

Разработка обучающих программ - одна из наиболее востребованных и в то же время наименее разработанных областей компьютерной лингводидактики. Проблематика создания компьютерных обучающих систем фонетического профиля на базе речевых технологий изучена в меньшей степени по сравнению с проблематикой построения систем обучения другим аспектам иноязычной речи, несмотря на богатый материал и широкие возможности, предлагаемые сторонними разработчиками и системными программистами тем, кто решит заняться построением обучающей фонетической системы.

Обучающее программное обеспечение, предназначенное для повышения фонетической компетенции, без сомнения, нуждается в инкорпорировании речевых компонентов, которые могли бы реализовывать такие функции, как оценка и коррекция речевой реализации обучающимся [Потапова, 1998; 1999 а]. Подобные возможности, предоставляемые пользователям, позволят обучающимся в автономном режиме приобретать соответствующую фонетическую компетенцию.

Компьютерные обучающие системы появились во многом как альтернатива традиционным методам обучения [Потапова 2002: 10-70]. Интеграция звука, голосового ввода, текста, видео, анимации позволила разработать интерактивную обучающую среду и обучающие средства, улучшающие традиционные методы обучения иностранным языкам. Первые обучающие системы использовались как правило в качестве средства контроля и впоследствии как инструмент диагностики [Потапова, 1991; Ботвенко, 2005: 14-18]. Появление интеллектуальных систем с подстройкой под обучающегося позволило использовать ЭВМ для повышения мотивации обучающегося и для индивидуализации обучения [Потапова, 1990; 2002: 33-61; Кедрова, 2000]. Однако общий вклад компьютерных средств обучения в современном учебном процессе не так значителен по сравнению с более традиционными техническими средствами обучения.

Можно выделить целый ряд причин, объясняющих сложившуюся ситуацию. Во-первых, отсутствие общепринятой теоретической базы, унифицированной системы взглядов и представлений о том, как должны использоваться компьютерные средства обучения и что они должны предлагать, отсутствие методологии разработки и оценки обучающего программного обеспечения. Во-вторых, недостаточная квалификация преподавателей для использования компьютерных средств обучения. В-третьих, недоказанность экономической и академической выгоды от внедрения новых информационных технологий в учебный процесс.

Данное диссертационное исследование посвящено исследованию проблематики создания обучающей лингвистической системы фонетического профиля с элементами акустической обратной связи и применения современного компьютерного инструментария в целях проведения лингвоконтрастивного анализа звучащей речи, определения основополагающих характеристик фонетической русско-английской интерференции методами корпусной и контрастивной лингвистики, а также перцептивной и экспериментальной фонетики*.

Основная цель работы заключается в анализе потенциальной возможности применения новейших достижений в области речевых технологий для разработки фонетической обучающей системы с элементами акустической обратной связи и в создании прототипа основного программного модуля, реализующего распознавание интерферированной речи и осуществляющего оценку конкретных произнесений и произношения говорящего в целом, а также в создании банка ошибок автоматического распознавания речи, вызванных явлением межъязыковой интерференции.

Лингвоконтрастивное исследование звучащей речи на базе современных речевых технологий актуально в связи с необходимостью широкого внедрения в лингводидактику новых информационных технологий и лингвистических обучающих систем с речевым вводом и обратной связью [Potapova, 2003] и недостаточной изученностью проблематики создания компьютерных обучающих систем фонетического профиля. Как показало проведенное исследование, существующее обучающее программное обеспечение фонетического профиля не отвечает современным требованиям, предъявляемым к средствам обучения, и не использует весь потенциал новых информационных технологий. Обратная связь с обучающимся отсутствует или реализована с помощью визуализации речевого сигнала, непонятной пользователю без специальной профессиональной подготовки [Потапова 2002: 429; 1993]. Вычислительная мощность современных компьютеров и достижения в области прикладной лингвистики, когнитивных Данное исследование поддерживалось Министерством Образования РФ в 2001-2004 годах, номер гранта ГРНТИ 14.01.29 (научный руководитель проекта - Потапова Р.К,) и грантом Американского Акустического Общества, номер гранта RX0-1210(14)-XX-04 (научный руководитель проекта - Потапова Р.К.) наук, педагогической психологии и методики позволяет снабдить компьютерные обучающие системы модулем формирования рекомендаций по исправлению произношения как интегральной характеристики речи обучающегося [Potapova 2003]. Современное обучающее программное обеспечение, рассмотренное в данном исследовании, не включает блок формирования рекомендаций и реализует обратную связь без учета новых достижений в акустической и перцептивной фонетике.

Кроме того, в работе решается актуальная задача повышения устойчивости систем автоматического распознавания устной речи применительно к межъязыковой интерференции на фонетическом уровне. Решение этой задачи необходимо в связи с широким внедрением элементов распознавания речи в системы, используемые не только носителями языка, но и иностранцами (например, справочные системы, терминалы автоматического заказа билетов, продуктов, бронирования гостиниц и т.д.), то есть теми, чья устная речь будет отличаться от аутентичной. Устойчивость работы всей системы зависит от устойчивости модуля распознавания речи к межъязыковой фонетической интерференции.

Научная новизна диссертации заключается в том, что в исследовании впервые собрана база данных - звуковых сегментов интерферированной русско-английской речи, содержащая наиболее трудные для автоматического распознавания кластеры фонемных реализаций. Впервые выделены оптимальные алгоритмы для автоматического распознавания интерферированной речи в лингвистических обучающих системах фонетического профиля, ибо никогда ранее не предпринималась попытка анализа алгоритмов автоматического распознавания речи с целью выделения оптимальных подходов к созданию лингвистических обучающих систем фонетического профиля. В исследовании впервые применяются методы корпусной лингвистики для построения базы данных фонетических ошибок, допущенных при продуцировании речи человеком и при автоматическом распознавании интерферированной речи компьютером. Впервые разработана и применена методика классификации ошибок автоматического распознавания звучащей речи с учетом определяющих факторов: межъязыковой интерференции на фонетическом уровне и технических причин (искажения сигнала в каналах передачи, реверберация и акустика помещения, шумы, неточности алгоритма и т.д.). Впервые разработанные речевые компоненты на основе речевых интерфейсов прикладного программирования SAPI адаптированы для создания фонетических обучающих систем.

Основная гипотеза исследования формулируется следующим образом:

Изучающий иностранный язык в процессе говорения склонен переносить некоторые характерные особенности звукового строя родного языка в систему изучаемого языка. Этот процесс называется лингвистической фонетической интерференцией и проявляется в наличии иноязычного акцента в речи обучающегося [Potapova, 1999 b; Potapov 2003 а; Ь]. Отклонения от аутентичного произношения могут быть определены как набор специфических признаков иноязычного акцента, каждый признак выражается посредством акустических коррелятов, которые измеряются с помощью компьютерного анализа речевого сигнала на основе известных алгоритмов. Следовательно, признаки иноязычного акцента могут быть выявлены путем применения современных речевых технологий, например, технологий распознавания звучащей речи, поэтому технологии распознавания речи могут применяться при разработке лингвистической обучающей системы фонетического профиля в целях обнаружения и коррекции фонетических ошибок в речи обучающегося.

Любая система автоматического распознавания звучащей речи ошибается при распознавании интерферированной речи. Некоторые ошибки распознавания определяются наличием интерференции и нарушением звуковой системы языка, другие - несовершенством аппаратного обеспечения, ошибками алгоритмов распознавания звучащей речи, и искажениями речевого сигнала, вызванными внешними факторами, например, реверберацией.

Применение существующей системы распознавания речи ViaVoice, методов корпусной лингвистики, перцептивной экспериментальной фонетики и новых достижений в речевых науках и технологиях позволило создать банк ошибок распознавания, определяемых межъязыковой интерференцией на фонетическом уровне, и создать прототип компьютерной обучающей фонетической системы.

Круг проблем, встающих перед разработчиком речевых компонентов для обучающих системы фонетического профиля, можно определить как задачу автоматического обнаружения, спецификации и коррекции ошибок в речи обучающихся (пользователей), а также разработки блока формирования рекомендаций пользователям по исправлению этих ошибок [Потапова, Ордин, 2003; Potapova, Ordin, 2003; 2004].

Поставленные проблемы требуют решения следующих конкретных задач:

1. проанализировать современные алгоритмы распознавания речи;

2. определить модель речепроизводства, наиболее подходящую для компьютерной реализации;

3. рассмотреть и выделить достоинства и недостатки существующего обучающего программного обеспечения фонетического профиля;

4. выделить наиболее частотные ошибки при автоматическом распознавании интерферированной речи и выявить, вызваны они работой алгоритма или фонетико-фонологическими ошибками говорящего вследствие переноса особенностей родного произношения на систему иностранного изучаемого языка;

5. разработать модель обучающей фонетической системы и работоспособный прототип базового модуля, реализующего распознавание речи и элементы акустической обратной связи.

Поставленные задачи определили структуру работы.

Работа состоит из введения, двух глав, заключения и приложений.

В первой главе содержится аналитическое исследование современных алгоритмов, реализующих базовый метод распознавания речи. Данная работа выполнена на материале анализа литературы по проблеме распознавания речи.

Далее рассматривается феномен межъязыковой интерференции, приводятся примеры интерференции различных типов, анализируются факторы, обуславливающие лингвистическую интерференцию на фонетическо-фонологическом уровне. Рассматриваются артикуляторный и перцептивный механизмы, модели речепроизводства и речевосприятия, вопросы программной реализации артикуляторных моделей.

Также первая глава содержит обзор существующих обучающих систем фонетического профиля и принципы разработки фонетического обучающего программного обеспечения, включая методологические, технологические и технические аспекты.

Во второй главе рассматриваются практические вопросы применения современных достижений в области речевых технологий для проектирования различных модулей обучающей системы, содержится описание экспериментального исследования русскоязычной интерференции, проведенное на базе современных речевых технологий, описывается методика, выбор испытуемых, материал, инструментарий эксперимента. Делается вывод о перспективности использования существующих механизмов распознавания речи в целях их дальнейшей адаптации и применения при разработке компьютерных лингвистических обучающих систем фонетического профиля.

Кроме того, во второй главе рассматриваются практические аспекты разработки компьютерной обучающей системы фонетического профиля: вопросы моделирования обучающего программного обеспечения на различных уровнях абстракции; вопросы связывания различных модулей в единое целое (включая методы инкорпорирования речевых элементов в систему); вопросы выбора парадигмы программирования; структура и интерфейсы речевых компонентов SAPI 5.1 и SAPI 4.0, а также вопросы, затрагивающие их инкорпорирование в приложения, написанные на различных языках программирования.

Заключение содержит обобщение основных теоретических положений по затронутой в работе проблематике, представляет наиболее значительные выводы, полученные при анализе экспериментальных данных, а также рекомендации по разработке полной версии обучающей системы; намечает перспективы дальнейшей работы в данном направлении.

Список литературы содержит ссылки на 101 источник.

В Приложении содержится пользовательская документация и техническое описание прототипа обучающей системы, полный исходный программный код всех разработанных модулей прототипа обучающей системы; таблица, которая приводит обзор современных систем автоматического распознавания устной речи, предназначенных для выполнения различных целей и использующих различные алгоритмы и вычленяемые параметры речевого сигнала; таблица, содержащая информацию касательно современных обучающих систем для повышения фонетической компетенции обучающегося.

Методика исследования включает: • Анализ специальной литературы по проблеме автоматического распознавания речи и повышения робастности автоматического распознавания интерферированной звучащей речи [Teixeira et al., 1997; Transcoso et al., 1999; Witt, Young, 1995; Junqua, 2000; Janqua, Haton, 1996; Humphries, Woodland, 1997; Huang et al., 2001; Jurafsky, Martin, 2000; и т.д.];

• Анализ специальной литературы по проблеме межъязыковой интерференции на фонетическом уровне [Browman, Goldstein, 1992; 1993; Potapov, 2003 a; b; Чистович et al. 1976; Венцов, Касевич, 2003; и т.д.];

• Критический анализ существующих обучающих систем фонетического профиля;

• Проведение многоэтапного эксперимента с целью создания банка ошибок автоматического распознавания звучащей речи, вызванных межъязыковой интерференцией на фонетическом уровне:

• Подбор испытуемых (дикторов, носителей русского языка со знанием английского языка);

• Подбор экспериментального материала;

• Подстройка системы автоматического распознавания речи ViaVoice к решению поставленных в исследовании задач;

• Распознавание вводимой в систему автоматического распознавания речи звучащей речи дикторов в реальном времени;

• Анализ распознанных текстов и сравнение полученных текстов с оригиналом, выделение регулярно повторяющихся ошибок распознавания;

• Подбор аудиторов (профессиональных фонетистов со знанием английского языка и опытом участия в перцептивно-слуховых экспериментах);

• Проведение аудиторского эксперимента с целью определить наиболее частотные фонетико-фонологические ошибки в речи испытуемых;

• Сравнение двух наборов частотных ошибок - ошибок распознавания и фонетико-фонологических ошибок, выделенных аудиторами. В случае совпадения ошибки распознавания и фонетической ошибки, выносилось предположение о том, что данная ошибка распознавания определяется межъязыковой интерференцией на фонетическом уровне;

• Классификация ошибок распознавания, вызванных межъязыковой фонетической интерференцией;

• Верификация экспериментальных данных с помощью независимо разработанного модуля, реализующего распознавание речи. По необходимости коррекция банка ошибок распознавания, вызываемых фонетической межъязыковой интерференцией.

• Моделирование компьютерной фонетической обучающей системы с учетом экспериментальных данных;

• Адаптация речевых компонентов для разработки обучающей фонетической системы;

• Разработка прототипа модуля обучающей системы, реализующего базовый метод распознавания речи.

На защиту выносятся следующие положения:

1. Существующие на сегодняшний день и свободно распространяемые речевые компоненты могут быть частично адаптированы к решению задачи разработки лингвистического обучающего программного обеспечения фонетического профиля с элементами акустической обратной связи.

2. Не все фонетико-фонологические ошибки обучающегося, вызванные интерференцией, ведут к некорректному автоматическому распознаванию речи, если используются существующие на сегодняшний день и свободно распространяемые речевые компоненты.

3. При применении существующих и свободно распространяемых речевых компонентов необходимо сконцентрировать внимание на коррекции тех фонетико-фонологических ошибок в речи обучающегося, которые вызывают «ошибки» распознавания системой.

4. При разработке компьютерной обучающей системы, способной оптимально обнаружить фонетико-фонологические ошибки в речи обучающегося, целесообразно создание специальных речевых компонентов.

5. Экспериментальный подход, примененный к формированию банка данных-ошибок» распознавания, обусловленных межъязыковой фонетической интерференцией, представляется наиболее соотносимым с решением поставленной в исследовании задачи разработки лингвистической обучающей системы фонетического профиля.

Достоверность полученных сведений определена представительной выборкой информантов, высокой квалификацией информантов, принявших участие в аудиторском эксперименте, независимой верификацией результатов с использованием самостоятельно разработанного инструментария, методологической базой и применявшимся математическим статистическим аппаратом.

В эксперименте приняли участие 42 диктора - носители русского языка со знанием английского языка - и 6 аудиторов - профессиональные фонетисты с опытом экспериментальной работы и участия в перцептивных экспериментах.

Результаты эксперимента подверглись верификации с применением разработанного программного модуля, реализующего базовый метод распознавания речи, и разработанного на той же технологической основе, которая использовалась при создании основного экспериментального инструмента -системы распознавания устной речи ViaVoice.

Результаты исследования были апробированы на международных конференциях SPECOM-2003, SPECOM-2004, SPECOM-2005, тринадцатой и пятнадцатой сессиях Российского Акустического Общества, на конференции Информатизация и информационная безопасность правоохранительных органов 2004, на кафедре прикладной и экспериментальной лингвистики Московского государственного лингвистического университета, и в итоговых отчетах, представленных в Министерство образования и науки РФ и Американское акустическое общество.

Теоретическая значимость данного диссертационного исследования определяется тем, что полученные результаты являются значительным вкладом в теорию изучения феномена межъязыковой интерференции на фонетическом уровне, в дальнейшее развитие теории человеко-машинной коммуникации и искусственного интеллекта. В диссертации получают дальнейшую разработку и расширяют область применения методы корпусной и контрастивной лингвистики. В работе предлагается анализ алгоритмов автоматического распознавания речи с учетом фактора межъязыковой интерференции.

Более того, предложен новый подход к вопросу изучения механизмов речевосприятия и речепроизводства, с позиции разработчика обучающей лингвистической системы фонетического профиля.

Разработанный метод адаптации существующих речевых компонентов к инкорпорированию в обучающее фонетическое программное обеспечение применим к разноплановым компонентам.

Практическую ценность работы составляют полученные в ходе экспериментального и аналитического исследования результаты:

• Банк данных наиболее частотных ошибок автоматического распознавания речи, обусловленных русско-английской фонетической интерференцией, который позволит существенно повысить устойчивость систем распознавания речи к межъязыковой интерференции и построить автоматический верификатор родного языка диктора (русского языка), говорящего на английском языке.

• Метод адаптации существующих речевых компонентов к решению задачи разработки обучающего фонетического программного обеспечения, значительно повышающего эффективность учебного процесса.

• Банк современных алгоритмов и алгоритмических подходов (последнее десятилетие XX - начало XXI века) применительно к системам автоматического распознавания звучащей речи и повышения их устойчивости к межъязыковой интерференции на фонетическом уровне.

• Прототип основного модуля компьютерной лингвистической обучающей системы фонетического профиля, реализующий базовый метод распознавания речи.

Результаты представленного исследования также актуальны при решении задач криминалистической фонетики, а именно при определении родного языка говорящего в целях идентификации и верификации говорящего по голосу.

Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Заключение диссертации по теме «Прикладная и математическая лингвистика», Ордин, Михаил Юрьевич

Основные выводы представленной работы можно свести к следующему*:

1. Многие алгоритмы, характеризующиеся повышенной помехоустойчивостью, позволяют корректно распознавать интерферированную речь при наличии эффекта сглаживания между значениями параметров аутентичного эталона и речевыми реализациями. Для разработки лингвистической обучающей системы фонетического профиля необходим целый комплекс алгоритмов, ибо перед ней ставится задача и распознать интерферированную речь, и обнаружить в ней отклонение от эталона. То есть, с одной стороны, системы должна обладать повышенной помехоустойчивостью к фонетической вариативности речи, а с другой стороны, система должна быть достаточно чувствительна, чтобы различать малейшие произносительные вариации в сигнале. На данный момент таким требованиям не отвечают рассмотренные нами в рамках данного исследования существующие системы. Поэтому для того, чтобы проектировать речевые компоненты для их дальнейшего инкорпорирования в обучающие системы необходимо разработать комплекс взаимодействующих алгоритмов, реализующих базовый метод распознавания речи. Такой комплекс взаимодействующих алгоритмов (или один комплексный алгоритм) можно спроектировать на основе существующих и проанализированных алгоритмов, использующихся для разработки современных систем автоматического распознавания речи различного назначения. Более конкретные, практические выводы содержаться в конце каждой главы диссертации.

2. При создании экспертного блока обучающей системы, предназначенного для формирования рекомендаций по коррекции произношения и отдельных ошибочных произнесений обучающегося, рекомендуется взять за основу динамическую артикуляторную модель. Предложенная Брауманом и Гольдштейном модель наиболее адекватно отражает фонетические и фонологические аспекты процесса речепроизводства и является программно реализуемой.

3. Разработку обучающего программного обеспечения необходимо вести с соблюдением всех требований к разработке любых комплексных программных систем. Разрабатываемая программа должна пройти все стадии - исследования, развития, конструирования и внедрения - при постоянном сотрудничестве программистов, специалистов в смежных областях (дизайнеров, психологов, лингвистов и т.д.) и авторитетных лиц проекта (методистов и преподавателей-практиков).

4. Разработку системы упражнений для фонетической обучающей системы с речевым вводом и акустической обратной связью целесообразно проводить с учетом возможных ошибок функционирования алгоритма автоматического распознавания речи, вызванных фонетической межъязыковой интерференцией и наиболее частотными ошибками распознавания, обусловленными некорректной работой выбранного алгоритма и прочими факторами.

5. В целях достижения взаимопонимания между участниками проекта рекомендуется строить модели, используя унифицированный язык UML 1.4 (Unified Modeling Language).

6. На стадии конструирования (непосредственного написания кода после того, как готовы основные модели разрабатываемой системы) предпочтение, конечно, отдается подготовке программной реализации модели на платформе Net, так как в случае успешного тестирования модели можно непосредственно переходить к разработке первого прототипа обучающей системы, заменяя отдельные модули и компоненты модели на компоненты и модули реального прототипа, реализованные на любом языке, интернированном в Visual Studio. Схема взаимодействия между отдельными компонентами системы останется неизменной и к моменту разработки прототипа уже протестированной. Следовательно, разработка прототипа сводится к постепенной замене модулей модели на модули прототипа.

7. Использование готовых речевых компонентов для инкорпорирования в фонетические обучающие системы не совсем целесообразно, так как они направлены в первую очередь на повышение робастности алгоритма к интерферированной речи.

Дальнейшие виды работ по заданной тематике заключаются в следующем:

• Продолжить формирование и заполнение базы знаний ошибок при автоматическом распознавании интерферированной речи, ввести более тонкие градации ошибок.

• Спроектировать и частично заполнить фонетическую базу знаний, содержащую характеристики артикуляции русских и английских речевых сегментов в потоке речи с учетом интерференции. Разработать свод правил, позволяющих сформулировать рекомендации по исправлению ошибок интерференции, и представить их на языке формальной логики. Спроектировать на основе базы данных и свода правил базу знаний, пригодную для разработки экспертной системы, направленной на формулирование рекомендаций по коррекции произношения и произнесения пользователя - обучающегося. Представить данную базу знаний в качестве программного компонента или отдельного модуля. Подготовить данный речевой компонент к инкорпорированию в обучающие системы (сделать интерфейс компонента открытым и задокументированным).

• Разработать программные речевые компоненты с открытым документированным интерфейсом - автоматизированный детектор, компонент сличения, и классификатор сегментных девиаций с учетом русско-английской фонетической интерференции для дальнейшего инкорпорирования в лингвистическую обучающую систему фонетического профиля.

• Составить и протестировать программную модель всей обучающей системы на языке Visual Basic 6.0 или Visual Basic Net.

• Реализовать программную модель в виде прототипа и, после необходимой доработки, в виде готового к внедрению и распространению коммерческого продукта.

• На основе сформированного банка ошибок распознавания, обусловленных фонетической русско-английской интерференцией, спроектировать и разработать прототип верификатора родного (русского) языка диктора, говорящего на английском языке.

ЗАКЛЮЧЕНИЕ

Относительно недавние успехи в области речевых технологий и доступность мультимедийных средств позволяет использовать современную ЭВМ в качестве обучающего мультимедийного центра.

Задача разработки качественного обучающего программного обеспечения активно решается уже более сорока лет, однако универсальный алгоритм, позволяющий построить отвечающую требованиям обучающего, обучающегося и обучаемого, так и не был найден. Методология разработки обучающего программного обеспечения подвержена неизбежным изменениям в связи с постоянным развитием информационных технологий, усовершенствованием аппаратных средств и изменениями в парадигме программирования, то есть переходом от функционального и процедурного программирования к объектно-ориентированному.

В ходе диссертационного исследования получены следующие практические результаты:

• Представлен банк современных систем автоматического распознавания речи различного назначения и алгоритмы (включая наборы используемых параметров), реализующие базовый метод распознавания в каждой системе.

• Выделены возможные алгоритмы оценки конкретных произнесений обучающегося и его произношения как общей интегральной характеристики.

• Представлен банк современных лингвистических обучающих систем фонетического профиля с элементами речевого ввода и акустической обратной связью, проведен анализ их эффективности.

• Сформирован банк наиболее частотных ошибок автоматического распознавания речи, обусловленных лингвистической русско-английской интерференцией на фонетическом уровне.

• Разработан прототип базового модуля обучающей системы фонетического профиля, реализующего базовый метод распознавания речи и определяющий наличие отклонений от аутентичного эталона в речевой реализации обучающегося. Прототип системы разработан на основе речевых компонентов, разработанных сторонними производителями (Microsoft SAPI - речевые интерфейсы прикладного программирования). Представленная программная разработка прилагается вместе с технической и пользовательской документацией и исходным кодом.

Список литературы диссертационного исследования кандидат филологических наук Ордин, Михаил Юрьевич, 2005 год

1. Абкаиров Н.Н., Назаров А., Пурто JL Создание программного кода для алгоритмов ЦОС: советы разработчика // Цифровая обработка сигналов. -2001.-№1.-С. 35-54

2. Ботвенко М.А. Компьютерная лингводидактика. М.:Флинта: Наука, 2005. -216 с.

3. Буч Г., Рамбо Д., Джекобсон А. Язык UML. Руководство пользователя. М.: ДМК, 2000.-432 с.

4. Вентцель Е.С. Исследование операций. М.: Наука, 1988.-208 с.

5. Венцов А.В., Касевич В.Б. Проблемы восприятия речи. М.: УРСС, 2003. -240 с.

6. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. -Киев: Наукова думка, 1987. 262 с.

7. Гершуни Г.В. О механизме слуха (в связи с исследованием временных и временно-частотных характеристик слуховой системы). // Механизмы слуха. -Л.: Наука, 1967. с. 3-32.

8. Гольдштейн Б.С., Пинчук А.В., Суховицкий А.Л. IP-телефония. М., Радио и Связь, 2001.-336 с.

9. Калан В. Основные концепции нейронных сетей. М.: Вильяме, 2001. - 288 с.

10. Кедрова Г.Е. Новые информационные технологии в дистанционном образовании и Пражская фонология. // Материалы конференции «Ежегодные международные чтения памяти Н.С. Трубецкого». М.: МГЛУ, 2000. - С. 24 -26

11. Н.Кириллов С.Н., Стукалов Д.Н. Анализ речевых сигналов на основе акустической модели. // Техническая кибернетика. 1994. - №2. - С. 147-153

12. Кодзасов С.В., Кривнова О.Ф. Общая фонетика: Учебник. М: РГГУ, 2001. -592 с.

13. Колоколов А.С., Янко В.П. Дикторонезависимое распознавание изолированных речевых команд на основе слуховых моделей. // Автоматика и телемеханика. 1995. - №8. - С. 15 - 157

14. Мазуренко И. Л. Компьютерные системы распознавания речи. // Интеллектуальные системы, т.З. 1998. - Вып. 1-2. - С. 117 - 134

15. Маркел Дж. Д., Грэй А.Х. Линейное предсказание речи: Пер. с англ./Под ред. Ю.Н. Прохорова. М.: Связь, 1980. - 380 с.

16. Методы автоматического распознавания речи. // Под редакцией Ли А.У. -М.: Мир, 1983.-Кн.1.-328 с.

17. Методы автоматического распознавания речи. // Под редакцией У. Ли М.: Мир, 1983.-Кн.2.-420 с.

18. Пассов Е. И. Коммуникативное иноязычное образование: Концепция развития индивидуальности в диалоге культур. Липецк, 2000.

19. Пиотровская К.Р. Об обучающих лингвистических автоматах // Проблемы компьютерной лингвистики. Минск, 1997. - С. 146-160.

20. Потапова Р.К. Коннотативная паралингвистика. М.: Триада, 1998. - 67 с.

21. Потапова Р.К. Новые информационные технологии и лингвистика. М.: МГЛУ, 2002. - 582 с.

22. Потапова Р.К. О специфике в развитии современных систем устного речевого общения «человек ЭВМ». // Проблемы фонетики III. - М.: Наука, 1999.-С. 310-328. (а)

23. Потапова Р.К. Проблемы и перспективы развития компьютерных обучающих систем. // Знание языка и языкознание. М.: Наука, 1991.

24. Потапова Р.К. Проект «Автоматизированная обучающая система, предназначенная для совершенствования иноязычного произношения.» // Фонетика в системе языка. М.: УДН - Вып. 2., 1999. - 321 с.

25. Потапова Р.К. Речевое управление роботом. М.: Радио и Связь, 1989. - 248 с.

26. Потапова Р.К. Речь: коммуникация, информация, кибернетика. М.: УРСС, 1997.-528 с.

27. Потапова Р.К. Слоговая фонетика германских языков. М., 1986. - 144 с.

28. Потапова Р.К. Специфика представления знаний в экспертных системах с устным речевым вводом. // Труды второй Всесоюзной конференции по искусственному интеллекту. Минск, 1990.

29. Потапова Р.К. Фонетические обучающие системы, функционирующие в настоящее время за рубежом и в Интернете. // Социальные и гуманитарные науки. М.: ИНИОН РАН, 1998. №3.

30. Потапова Р.К. Экспертные системы применительно к естественному языку. // Языкознание за рубежом. М.: ИНИОН РАН, 1993. - №3.

31. Рабинер Л.Р., Голд Б. Теория и применение цифровой обработки сигналов. -М.: МИР, 1978.-848 с.

32. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981.- 495 с.

33. Скотт К. UML. Основные концепции. М.: Издательский дом «Вильяме», 2002.- 144 с.

34. Тамре JI. Введение в тестирование программного обеспечения. М.: «Вильяме», 2003. - 368 с.

35. Фаулер М., Скотт К. UML. Основы. Краткий обзор унифицированного языка объектно-ориентированного моделирования. СПб: Символ-Плюс, 2003. — 192 с.

36. Фланаган Дж. JI. Анализ, синтез и восприятие речи. М., 1968. - 396 стр.

37. Халеева, И.И. Основы теории обучения пониманию иноязычной речи (подготовка переводчиков). М., 1989. - 237 с.

38. Чистович JI.A., Венцов А.В. Слуховые уровни восприятия речи. Функциональное моделирование // Акустика речи и слуха. / Под ред. JI.A. Чистович. JL: Наука, 1986. - 352 с.

39. Чистович Л.Ф., Венцов А.В., Гранстрем М.П. Физиология речи. Восприятие речи человеком. JL: Наука, 1976. - 388 с.

40. Ambra N., Cucciarini С., Strik Н. Feedback in Computer-Assisted Pronunciation Training: Technology Push or Demand Pull? // Proceedings of ICLSP 2003. P. 1209-1212

41. Bernstein, J. Speech Recognition in Language Education. // Proceedings of the CALICO'94 Symposium, 1994. P. 37 - 41

42. Brazil D. Pronunciation for Advanced Learners of English. Cambridge: Cambridge University Press, 1994. - p. 159

43. Browman C.P., Goldstein L. Articulatory Phonology: An Overview // Phonetica. -1992.-№49.-P. 155-180

44. Browman C.P., Goldstein L. Dynamic and Articulatory Phonology. Status Reports on Speech Research, SR-1 13. New Haven: Haskins Laboratories, 1993. - p. 5162

45. Brown A. Functional Load and the Teaching of Pronunciation. // TESOL Quarterly. 1988. - №22. P. 593-606

46. Brown G., Yule G. Teaching the Spoken Language. Cambridge: Cambridge University Press, 1983. - p. 176

47. Chapelle C. Multimedia CALL: Lessons to be learned from research on instructed SLA. // Language Learning and Technology. 1998. - Vol. 2 № 1. - P. 22-34

48. Coleman J. Introducing Speech and Language Processing. Cambridge: Cambridge University Press, 2005. - p. 314

49. Dalby J., Kewley-Port D. Explicit Pronunciation Training Using Automatic Speech Recognition Technology// CALICO'99 №16 (3), 1999. P. 425-445

50. Eskenazi, M. Using automatic speech processing for foreign language pronunciation tutoring. // Language Learning and Technology. 1999. - Vol.2 №2. - P. 62-76

51. Fels, S.S., F. Vogt, B. Gick, C. Jaeger, I. Wilson. User-centred design for an open-source 3-D articulatory synthesizer. // Proceedings of the XVth International Congress of Phonetic Sciences. Barcelona, 2003. - P. 179-184.

52. Gick, В., Wilson I. Excrescent schwa and vowel laxing: Cross-linguistic responses to conflicting articulatory targets. // Papers in Laboratory Phonology, 2001, №8. -Huskins: Huskins Laboratories. P. 24 - 56

53. Goldstein L., Fowler C. Articulatory Phonology: A phonology for public language use. // Phonetics and Phonology in Language Comprehension and Production: Differences and Similarities. Berlin: Mouton de Gruyter, 2002. - P. 159-207

54. Huang X., Acer A., Hon H-W., Spoken Language Processing: A Guide to Theory, Algorithm and System Development. New York: Prentice Hall PTR, 2001. - p. 1008

55. Humphries J., Woodland P. Using Accent-Specific Pronunciation for Improved Large Vocabulary Continuous Speech Recognition. // EUROSPEECH'97, 1997. -P. 2367-2370

56. Johnson, C.E., Wilson I.L. Phonetic evidence for early language differentiation: Research issues and some preliminary data. // International Journal of Bilingualism. 2002. - №6. - P. 271-289

57. Juang B.H., Rabiner L.R., Wilpon J.G. On the Use of Bandpass Liftering in Speech Recognition. // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1987. - Vol. 35, №7. p. 947-954

58. Junqua J.-C. Robust Speech Recognition in Embedded Systems and PC Applications. Boston: Kluwer Academic Publishers, 2000. - p. 204

59. Junqua J.-C., Haton J.-P. Robustness in Automatic Speech Recognition. Boston: Kluwer Academic Publishers., 1996. - p. 476

60. Jurafsky D., Martin, J. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. New York: Prentice Hall, 2000. - p. 960

61. Kawai G. Spoken Language Processing applied to non-native language pronunciation learning. PhD dissertation. Tokyo: University of Tokyo, 1999. -p. 110

62. Keith A.Jones Windows Speech Recognition Programming: With Visual Basic and ActiveX Voice Controls. Lincoln.: iUniverse, 2004. - p. 382

63. Kentworthy J. Teaching English Pronunciation. New York: Longman, 1987. p. 164

64. Lavagetto D., Arzarello M., Caranzano M. Lipreadable frame animation driven by speech parameters. // IEEE International Symposium on Speech, Image Processing and Neural Networks. Hong Kong, 1994. - P. 14-16

65. Lee K.F., Automatic Speech Recognition: The Development of the SPHINX System. Boston: Kluwer Academic Publishers, 1989.

66. Levy M. CALL by design: discourse, products and processes. // ReCALL №14 vol.1, 2002.-стр. 58-84.

67. Linde F., Gray R. An Algorithm for vector quantization design. // IEEE Transactions on Communications COM-28, 1980.

68. Murray, L., Barnes, A. Beyond the "WOW" factor evaluating multimedia language learning software from a pedagogical point of view // System №26, 1998. p. 249-259.

69. Neri A., Cicchiarini, C., Strik M., Boves L. The Pedagogy-technology interface in Computer-assisted Pronunciation Training, 2003.

70. Noll A.M. Cepstrum Pitch Determination. //JASA, vol. 41. №.2, 1967 pp. 293309.

71. Pennington M.C. Computer-aided pronunciation pedagogy: Promise, limitations, directions. // Computer-aided Learning, №12, 1999. pp. 427-440.

72. Perkell, J.S. and Klatt, D. Invariance and Variability of Speech Processes. // Proceedings of an international conference organized by J. Perkell and D. Klatt at MIT with support from NIH and NSF, 1986.

73. Perkell, J.S., Matthies, M.L., Svirsky, M.A., Jordan, M.I. Goal-based speech motor control: A theoretical framework and some preliminary data. // Journal of Phonetics, №23, 1995. pp.23-35.

74. Petrushin V.A. Student Response for Spoken Language Learning: A Case Study of Learning Chinese Tones. // IEEE International Conference on Advanced Learning Technologies, 2002.

75. Potapov V.V. On Language Contrastive-Comparative Analysis of English and Russian Phonetic Systems. // Proceedings of SPECOM 2003. Moscow, 2003. (a)

76. Potapov V.V. The American English Interference in Russian on the Segmental Level. // Proceedings of SPECOM 2003. Moscow, 2003. (b)

77. Potapova R.K. Modern CALL Systems with Elements of Acoustic Feedback. // Proceedings of SPECOM 2003. Moscow, 2003.

78. Potapova R.K., Ordin M.Yu. Errors Caused by Phonetic Interference in Automatic Speech Recognition. // Proceedings of SPECOM 2005. Patras, Greece, 2005. pp.361-365.

79. Potapova R.K., Ordin M.Yu. Algorithm for Developing Speech Components for Educational Software with Acoustic Feedback. // Proceedings of SPECOM 2004. -Moscow, 2004.

80. Potapova R.K., Ordin M.Yu. Articulation Models in Educational Software with Embedded ASR Components. // Proceedings of SPECOM 2003. Moscow, 2003.

81. Potapova R.K., Shigina E.V. New Information Technologies in Foreign Language Today. Moscow, 2002.

82. Rabiner L, Juang B.H., Fundamentals of Speech Recognition", Prentice Hall PTR, 1993.507 p.

83. Saltzman, E. Task dynamic co-ordination of the speech articulators: a preliminary model. // Generation and Modulation of Action Patterns. Edited by Heuer H., Fromm C. Berlin: Springer-Verlag, 1986 pp. 129-144.

84. Stevens, К. H. On the quantal nature of speech. // Journal of Phonetics. №17, 1989.-pp. 3-45.

85. Stevens, К. H. The quantal nature of speech: Evidence from articulatory-acoustic data. // Human Communication: A unified point of view, edited by David E. E., Denes P. B. New York: McGraw-Hill, pp. 51-66. 1972.

86. Tamura S. An Analysis of a Noise Reduction Using Neural Network // Proceedings IEEE International Conference on Acoustics, Speech, and Signal Processing, Glasgow, Scotland, 1998, pp. 2001-2004.

87. Teixeira C., Transcoso I., Serralheiro A. Recognitions of Non-Native Accents. // EUROSPEECH 1997, 1997, pp. 2375-2378.

88. Transcoso I., Viana C., Mascsrenhas I., Teixeira C. On Deriving Rules for Nativised Pronunciation in Navigation Queries. // EUROSPEECH 1999, 1999, pp. 195-198.

89. Underwood, J. Linguistics, computers, and the language teacher: a communicative approach. Rowley, MA: Newbury House, 1984.

90. Underwood, J. On the edge: intelligent CALL in the 1990s. // Computers and the Humanities, №23 vol. 1, 1989. p. 71-84.

91. Warschauer, M. Computer-assisted Language Learning: an Introduction. // Multimedia Language Teaching, edited by S. Fotos. Tokyo: Logos. 1998. - 320.

92. Warshauer M., Healey D. Computers and Language Learning: an Overview // Language Teaching. №31, 1998. pp. 57-71.

93. Watson, C. S., Kewley-Port, D. Computer-based speech training (CBST): Current status and prospects for the future // Volta Review, №91 (5), 1989. 29-45.

94. Witt S. Language learning based on non-native speech recognition. // EUROSPEECH 1997, Rhodes, 1997. -pp. 633-636.

95. Witt S., Young S. Off-Line Acoustic Modelling of Non-Native Accents. // EUROSPEECH 1999, 1999, pp. 1367-1370.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.