Создание библиотеки аллофонов для компилятивного синтеза речи по тексту: Теоретические основы прикладного исследования на материале британского варианта английского языка

Евграфова, Карина Владимировна

Создание библиотеки аллофонов для компилятивного синтеза речи по тексту: Теоретические основы прикладного исследования на материале британского варианта английского языка тема диссертации и автореферата по ВАК РФ 10.02.19, кандидат филологических наук Евграфова, Карина Владимировна

Евграфова, Карина Владимировна
кандидат филологических наук
2006

Специальность ВАК РФ10.02.19

Количество страниц 182

Евграфова, Карина Владимировна. Создание библиотеки аллофонов для компилятивного синтеза речи по тексту: Теоретические основы прикладного исследования на материале британского варианта английского языка: дис. кандидат филологических наук: 10.02.19 - Теория языка. Санкт-Петербург. 2006. 182 с.

Оглавление диссертации кандидат филологических наук Евграфова, Карина Владимировна

Введение.

Глава I Основные задачи и методы компилятивного синтеза речи.

1.1 Синтез речи по тексту как одна из задач прикладной фонетики.

1.2 Технологии автоматического синтеза.

1.3 Компилятивный синтез речи и его виды.

1.4 Особенности аллофонной модели.

1.5 Принципы формирования аллофонной базы данных.

1.6 Выводы по главе 1.

Глава II Основные этапы формирования инвентаря аллофонной базы данных английского языка.

2.1 Описание системы английских фонем.

2.1.1 Артикуляторная классификация гласных.

2.1.2 Описание системы английских согласных фонем.

2.2 Выделение классов контекстов.

2.2.1 Выделение классов контекстов для аллофонов гласных фонем.

2.2.2 Выделение классов контекстов для аллофонов согласных фонем.

2.3 Подготовка звукового материала для аллофонной базы данных.

2.3.1 Описание словника.

2.3.2 Запись исходного речевого материала.

2.4 Сегментация звукового материала.

2.5 Выводы по главе II.

Глава III Оптимизация и тестирование аллофоной базы данных.

3.1 Проблемы экономии исходного звукового материала для аллофонного синтеза речи.

3.2 Методика экспериментов по оптимизации.

3.3 Сокращение контекстов комбинаторных аллофонов гласных.

3.3.1 Сокращение комбинаторных аллофонов гласных в окружении согласных.

3.3.2 Сокращение комбинаторных аллофонов гласных в окружении гласных.

3.4 Сокращение контекстов комбинаторных аллофонов согласных.

3.5 Результаты экспериментов по оптимизации инвентаря аллофонной базы.

3.6 Тестирование аллофонной базы данных.

3.6.1 Материал и методика экспериментов.

3.6.2 Аудиторы.

3.6.3 Процедура перцептивных экспериментов.

3.6.4 Результаты перцептивных экспериментов.

3.7 Выводы по главе III.

Введение диссертации (часть автореферата) на тему «Создание библиотеки аллофонов для компилятивного синтеза речи по тексту: Теоретические основы прикладного исследования на материале британского варианта английского языка»

Современный этап развития лингвистики в целом и фонетики в частности характеризуется поворотом от структурного подхода к моделированию реальных процессов говорения. Ценность лингвистического исследования на современном этапе все больше определяется возможностью синтезировать на основе языковой модели материальные элементы языка [Бондарко 1981].

Создание действующих моделей, имитирующих естественные звуковые процессы, и в частности, исследования, ведущиеся над созданием систем синтеза речи, позволяют рассмотреть теоретические проблемы фонетики и фонологии в новом аспекте.

При проведении экспериментов по моделированию естественных процессов порождения и восприятия речи появляется возможность проверить действительную ценность и полноту существующих лингвистических знаний о принципах организации и функционирования звуковой формы естественных языков.

В ходе таких экспериментов становится возможным применить на практике знания о звуковых средствах языка, полученных в результате преимущественно теоретических и экспериментально-фонетических исследований, и выяснить, какие из этих знаний являются достаточно полными, а каких данных на данный момент недостаточно для их адекватного отражения в искусственных моделях.

Таким образом, применение уже имеющихся лингвистических знаний для решения прикладных задач - это эффективный способ получить новые сведения о свойствах звуковых единиц естественной человеческой речи, которые могут существенно изменить оценку общефонологических моделей и тем самым повлиять на представления о свойствах системы языка вообще.

В связи с этим особое значение приобретает прикладная лингвистика, занимающаяся разработкой компьютерных систем, функционирующих на базе естественного языка: систем автоматического синтеза и распознавания речи.

Актуальность настоящего исследования определяется необходимостью получения данных об особенностях аллофонического варьирования в английском языке путем экспериментов по созданию и оптимизации инвентаря аллофонной базы данных для синтеза речи и последующего сопоставления результатов исследования с традиционными представлениями о фонетической системе английского языка - вокализме и консонантизме.

Целью данной научной работы является создание библиотеки аллофонов фонем английского языка для синтеза речи по тексту.

Основным принципом для решения задачи построения аллофонного синтеза является создание акустико-фонетической базы данных, базовыми элементами которой выступают аллофоны присутствующих в конкретном языке фонем.

Таким образом, для достижения поставленной цели было необходимо решить ряд как теоретических, так и практических задач:

- анализ научных публикаций как отечественных, так и зарубежных авторов, в которых рассматриваются проблемы аллофонического варьирования фонем английского языка;

- рассмотрение реализации каждой из фонем английского языка во всех возможных окружениях и выделение на основе теоретических предпосылок, описанных в литературе, всех возможных комбинаторных и позиционных аллофонов, необходимых для синтеза любых речевых последовательностей;

- составление специального словника, содержащего слова или словосочетания, в которые входят все рассматриваемые аллофоны;

- запись и сегментация звукового материала для акустической базы данных;

- проведение экспериментов по оптимизации инвентаря аллофонной базы, в ходе которых определялась существенность/несущественность аллофонных различий и возможность сокращения числа используемых в базе аллофонов;

- выделение оптимального набора комбинаторных и позиционных аллофонов, различающихся не с артикуляторной, а перцептивной точки зрения, и достаточного для синтеза любых звуковых последовательностей;

- проведение перцептивных экспериментов с целью оценки качества полученного инвентаря акустической базы данных;

- обобщение и теоретическая интерпретация полученных в ходе исследования результатов.

Объектом данного исследования послужили аллофоны гласных и согласных фонем британского варианта английского языка.

Научная новизна исследования состоит в комплексном рассмотрении особенностей акустических свойств аллофонов фонем английского языка путем экспериментов по синтезу речи.

Теоретическая ценность проведенного исследования состоит в лингвистической интерпретации данных об особенностях аллофонического варьирования фонем английского языка, полученных в результате экспериментов по формированию и оптимизации инвентаря аллофонной базы данных для английского компилятивного синтеза, и выделении набора аллофонов, различающихся не с артикуляторной, а перцептивной точки зрения.

Практическая значимость работы заключается в том, что сформированная аллофонная база данных может служить основой для создания законченной системы синтеза речи по тексту для английского языка и использоваться во всех сферах применения автоматического синтеза речи, диапазон которых необычайно широк.

Одной из таких сфер применения, например, может быть создание компьютерных программ, обучающих английскому произношению (автоматических фонетических тренажеров, электронных словарей, а также любых других учебных пособий, содержащих звуковые примеры).

Благодаря своей компактности (размер базы не превышает 1 Мб), она может быть инкорпорирована в любое устройство с ограниченной памятью (мобильный телефон, карманный компьютер, электронный словарь и т.д.) и использоваться для озвучивания неограниченного числа звуковых последовательностей. Это могут быть слова из упражнений на постановку английского произношения, вокабуляр из англо-русского разговорника и т.д.

Такие обучающие программы нового поколения, несомненно, могут быть эффективно использованы для освоения английского произношения студентами языковых ВУЗов, а также людьми, изучающими английский язык самостоятельно.

В ходе исследования применялись следующие методы: слуховой и экспертный виды анализа, аудиторский эксперимент, инструментальный анализ звукового материала.

Изложение процедуры и результатов исследования сопровождается таблицами и рисунками.

Апробация исследования. Результаты исследования были представлены в докладах на заседаниях кафедры фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного университета, на Межвузовских конференциях преподавателей и аспирантов СПбГУ (2005, 2006), международной конференции "Текст, речь, диалог" (Карловы Вары, Чехия, 2005), Всероссийской объединенной конференции "Гуманитарная информатика. Электронное правительство в информационном обществе" (Санкт-Петербург, 2005).

По теме диссертации опубликованы работы.

1) Евграфова К.В. Принципы формирования аллофонной базы данных английского языка для компилятивного синтеза // Фонетический лицей, СПб, 2004.

2) Евграфова К.В. Формирование аллофонной базы данных английского языка // Интегральное моделирование звуковой формы естественных языков, СПб., 2005.

3) Evgrafova K.V. The Sound Database Formation for the Allophone-based Model for English Concatenative Speech Synthesis // Proc. of TSD'2005. Karlovy Vary, (2005) P. 219-225.

4) Евграфова К.В. Применение технологии компилятивного синтеза в целях обучения иностранному языку // Технологии информационного общества - Интернет и современное общество: Труды VIII Всероссийской объединенной конференции. СПб, 2005.

5) Евграфова K.B. Тестирование аллофонной базы данных // Труды

Межвузовской конференции преподавателей и аспирантов, СПб, 2006 в печати).

6) Evgrafova K.V. The Quality Evaluation of Allophone Database for

English Concatenative Speech Synthesis // Proc. of Specom'06, Saint

Petersburg, 2006 (в печати).

Объем и структура работы. Данное диссертационное исследование содержит 182 страницы и состоит из введения, трех глав, заключения, списка использованной литературы и приложения.

Заключение диссертации по теме «Теория языка», Евграфова, Карина Владимировна

3.6.5 Выводы по главе III

1) На этапе оптимизации аллофонной базы данных была решена задача достижения максимальной экономии речевого материала при сохранении естественности.

2) Число базовых звуковых единиц инвентаря было сокращено в результате исследования спектральных картин базовых аллофонов и на основании слухового анализа слов, включающих комбинаторные аллофоны со сходными акустическими характеристиками.

3) Сокращение количества используемых в базе комбинаторных аллофонов стало возможным благодаря укрупнению или реорганизации первоначально выделенных классов контекстов.

4) В результате оптимизации, как число левых гласных контекстов, так и число правых сокращено до 10. Количество классов контекстов для согласных уменьшено до 4 левых контекстов и 7 правых.

5) В результате экспериментов количество комбинаторных аллофонов гласных было уменьшено до 1000, а согласных - до 200.

6) В целом количество базовых аллофонов, выделенных с учётом акустических и перцептивных различий, оказалось значительно меньше традиционно выделяемого и описанного в литературе набора артикуляторных аллофонов английских фонем.

7) Перцептивные эксперименты показали, что на сегментном уровне качество синтезированной речи может быть оценено как хорошее, что подтверждает правильность составления инвентаря, а также правильность выбора физических границ аллофонов при сегментации.

ЗАКЛЮЧЕНИЕ

В ходе данного исследования был решен ряд теоретических и практических задач.

Реализации каждой из фонем английского языка были рассмотрены во всех возможных окружениях и на основе теоретических предпосылок, описанных в литературе, был выделен набор всех возможных комбинаторных и позиционных аллофонов, необходимых для синтеза любых речевых последовательностей.

При выделении этого набора были учтены особенности системы английских фонем, а также произведен анализ и обобщение теоретических данных об аллофоническом варьировании в английском языке.

Полученные результаты были использованы для создания звукового материала аллофонной базы данных.

В ходе экспериментов по оптимизации инвентаря аллофонной базы устанавливалась существенность/несущественность аллофонных различий, и проверялись гипотезы о сходствах акустических характеристик некоторых аллофонов.

В результате экспериментов по оптимизации удалось значительно сократить количество используемых в базе комбинаторных аллофонов. Это сокращение стало возможным в первую очередь благодаря укрупнению или реорганизации первоначально выделенных классов контекстов.

Сокращения, внесенные в число классов гласных и согласных контекстов, несимметричны. Первоначально для гласных было сформировано всего 18 классов левых и 22 класса правых контекстов, для согласных - 5 классов левых и 11 классов правых контекстов.

В результате оптимизации количество, как левых, так и правых контекстов для гласных сокращено до 10.

Возможность такого радикального сокращения количества классов фонетических типов контекстов для гласных связана с незначительным диапазоном аллофонического варьирования гласных английского языка.

Как показали перцептивные эксперименты, целый ряд левых и правых контекстов не оказывает значительного влияния на слуховой эффект аллофонов гласных.

В ходе экспериментов, проводившихся при спектральном и слуховом контроле, удалось установить набор наиболее важных правых и левых контекстов, оказывающих значимое влияние на акустические и перцептивные характеристики гласных.

Вопреки традиционному представлению о том, что левый контекст важнее для гласных, чем правый, число выделенных левых и правых контекстов оказалось одинаковым.

Что касается количества классов контекстов для согласных, после оптимизация оно уменьшено до 11 классов: 4 класса левых контекстов и 7 классов правых.

Сокращения классов контекстов для согласных не столь значительны, как для гласных. Это связано с тем, что аллофоническое варьирование согласных, в особенности предвокальных, является более заметным на слух, чем аллофоническое варьирование гласных.

Разница в количестве левых и правых контекстов для согласных подтверждает более сильное влияние на согласный правого контекста, особенно вокального, по сравнению с левым.

Таким образом, проведенные эксперименты показали, что целый ряд гласных аллофонов с разными левыми или правыми контекстами, обладающие разными артикуляторными характеристиками, с акустической точки зрения и перцептивно не различаются.

Так, например, замена гласных аллофонов в позициях после 1]1, Ы, /к/, Ли/, /01/ или /е 1/ одного на другой совершенно неощутима при слуховом восприятии. На этом основании возможно лишь один аллофон из этой группы рассматривать как базовый.

Таким образом, количество базовых аллофонов, выделенных с учётом акустических и перцептивных различий, оказалось значительно меньше традиционно выделяемого и описанного в отечественной и зарубежной фонетической литературе набора артикуляторных аллофонов английских фонем.

Кроме описанных выше экспериментов по оптимизации, был использован и другой способ сокращения количества аллофонов в базе данных. Все аллофоны, которые не встречаются в рамках одного слова, а возможны только на стыках слов, были исключены из базы. Микропауза, появляющаяся между словами в результате отсутствия в базе такого аллофона, не приводит к снижению степени естественности звучания и при этом увеличивает разборчивость синтезированной речи

В целом в результате оптимизации стало возможным сократить количество комбинаторных аллофонов гласных до 1000, а согласных -до 200.

Эксперименты также показали, что и оптимизированный набор элементов для синтеза при необходимости может быть сокращен за счет еще большего обобщения контекстов комбинаторных аллофонов гласных.

Это, объясняется тем, что качество английских гласных полного образования, в особенности монофтонгов, отличается большей стабильностью и определенностью.

Проверка правильности выделения оптимального набора акустических аллофонов и того, насколько полно были учтены все особенности акустических характеристик аллофонов фонем английского языка, осуществлялась в ходе экспериментов по тестированию качества полученной аллофонной базы данных.

С этой целью был проведен ряд экспериментов на восприятие звучащей синтезированной речи, полученной при компиляции звуковых единиц сформированного инвентаря. Основными критериями оценки являлись разборчивость и естественность синтезированной речи.

Проведенные эксперименты показали, что на сегментном уровне можно отметить высокое качество синтезированной речи, полученной при компиляции единиц инвентаря аллофонной базы, что подтверждает правильность составления оптимального набора комбинаторных и позиционных аллофонов, а также правильность выбора физических границ аллофонов при сегментации.

В результате экспериментов, проведенных в ходе данного исследования, и теоретического обобщения их результатов была сформирована библиотека аллофонов, различающихся с акустической и перцептивной точки зрения.

Полученная в ходе исследования аллофонная база данных может служить основой для создания законченной системы синтеза речи по тексту для английского языка и использоваться во всех сферах применения автоматического синтеза речи, диапазон которых необычайно широк.

Список литературы диссертационного исследования кандидат филологических наук Евграфова, Карина Владимировна, 2006 год

1. Алтухова Е.Е. Реализация законов фонотагстики в спонтанной речи (экспериментально-фонетическое британского варианта исследование на материале Санкт- английского языка). Канд. дне. Петербург, 2000.

2. Бабкин А.В. Автоматический синтез речи проблемы и методы генерации речевого сигнала Труды международного семинара Диалог98 по компьютерной лингвистике и ее приложениям. Казань, 1998.www.dialog-21.ru/Archive/1998/Dialogue%202000-2/25.htm

3. Бабкин А.В. Особенности применения технологии TD-PSOLA для модификации характеристик вокальных аллофонов Труды международного семинара Диалог01 по компьютерной лингвистике и ее приложениям. Звенигород, 2001. www.diaiog- 21.ru/Archive/2000/Dialogue%202000-2/25.htm

4. Бабкин А.В., Захаров Л. М. Оценка качества системы синтеза речи, разработанного в МГУ Труды международного семинара Диалог99 по компьютерной лингвистике и ее приложениям. Таруса, www.dialog-21.ru/Archlve/1999/Dialogue%202000-2/25.htm 1999.

5. Бондарко Л.В. Фонетическое описание языка и фонологическое описание речи. Л., 1981.

6. Бондарко Л.В., Вербицкая Л. А., Зиндер Л. Р. Акустические характеристики безударности Структурная типология языков. М., 1966, стр. 56-64.

7. Бондарко Л.В., Кузнецов В. И., Скрелин П.А., Шалонова К. Б. Звуковая система русского языка в свете задач компилятивного синтеза Бюллетень фонетического фонда русского языка. 6, май 1997.

8. Вольская Н., Коваль А., Коваль С Опарин И., Погарева Е., Скрелин П., Смирнова Н., Таланов А. Синтезатор русской речи по тексту нового поколения Труды международного семинара Диалог05 по компьютерной лингвистике и ее приложениям. 2005. www.diaiog21.ru/Archive/2000/Dialogue%202000-2/25.htm

9. Вольская Н. Б., Светозарова Н. Д., Скрелин П.А. Моделирование просодического оформления русского текста Бюллетень фонетического фонда русского языка. 6, май 1997, стр. 65-110. И. Вольская Н.Б., Скрелин П.А., Таланов А.О. Автоматическое моделирование просодического оформления фразы Интегральное моделирование звуковой формы естественных языков. СПб., 2005, стр. 64-74.

10. Гинтовт К. П. Вопросу о стилистических модификациях звуков речи в английском языке Функциональный анализ фонетических единиц английского языка. М., 1988.

11. Демидов А.К. Анализ дифтонгов в системе вокализма американского и британского вариантов аглийского языка. Автореф. дис. канд. филол. наук. Одесса, 1983.

12. Евграфова данных К.В. Принцины формирования аллофонной языка для компилятивного базы английского синтеза Фонетический лицей, СПб., 2004, стр. 23-36.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат филологических наук Евграфова, Карина Владимировна

Рекомендованный список диссертаций по специальности «Теория языка», 10.02.19 шифр ВАК

Модификации английских гласных в связной речи: На материале вокалического стыка1999 год, кандидат филологических наук Михальчук, Валентина Анатольевна

Похожие диссертационные работы по специальности «Теория языка», 10.02.19 шифр ВАК

Заключение диссертации по теме «Теория языка», Евграфова, Карина Владимировна

Список литературы диссертационного исследования кандидат филологических наук Евграфова, Карина Владимировна, 2006 год