Синтез речи на основе глубокого машинного обучения тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Калиев Арман

  • Калиев Арман
  • кандидат науккандидат наук
  • 2019, ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 245
Калиев Арман. Синтез речи на основе глубокого машинного обучения: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики». 2019. 245 с.

Оглавление диссертации кандидат наук Калиев Арман

Реферат

Synopsis

Введение

Глава 1 Аналитический обзор современных подходов синтеза речи

1.1 Ранняя история синтеза речи

1.2 Технология синтеза речи Unit Selection

1.3 Статистический параметрический синтез речи

1.4 Системы синтеза речи end-to-end

1.5 Синтез эмоциональной речи

Выводы по главе

Глава 2 Технология синтеза речи по тексту

2.1 Корпус и язык

2.2 Лингвистическая обработка

2.3 Фонетическая обработка

2.4 Просодическая обработка

2.5 Акустическая обработка

Выводы по главе

Глава 3 Методы просодической и акустической обработки

3.1 Методы просодической обработки

3.1.1 Определение мест пауз

3.1.2 Предсказание длительности пауз

3.1.3 Предсказание длительности фонем

3.2 Методы акустической обработки

3.2.1 Предсказание контура основного тона

3.2.2 Предсказание акустических параметров

3.3 Способы акустической обработки для изменения экспрессивности синтезированной речи

3.4 Программная реализация просодической и акустической обработки

3.4.1 Использованные программные инструменты

3.4.2 Реализация алгоритмов предсказания просодических признаков

3.4.3 Реализация метода предсказания акустических признаков

Выводы по главе

Заключение

Список сокращений и условных обозначений

Список литературы

Список рисунков

Список таблиц

Приложение А. Тексты публикаций

7

Реферат

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Синтез речи на основе глубокого машинного обучения»

Общая характеристика работы

Актуальность темы. Речевое человеко-машинное взаимодействие является одним из наиболее актуальных направлений развития в области ИТ, способное вывести на новый уровень удобство взаимодействия человека с ИТ-системами.

Уровень проникновения речевых технологий в современную жизнь сильно различается по странам и по языковым средам. Особенно это заметно в сервисах, разрабатываемых ведущими технологическими компаниями, где основными языками обслуживания стали высокоресурсные языки, т.е. языки, для которых существует морфо - грамматические анализаторы, большие размеченные речевые и текстовые корпуса и т.д. Высокое качество работы речевых систем для английского, испанского, французского, китайского и некоторых других языков сочетается со слабым развитием или даже их полным отсутствием для многих других языков. Вследствие чего, в странах с высокоресурсными языками проникновение речевых технологий стало играть важную и полезную роль в обществе, во многом облегчая для местных жителей доступ к сервисам обслуживания. Соответственно, там, где основными языками общения являются малоресурсные языки, появляется большой спрос на подобные технологии. С точки зрения естественной обработки языка, малоресурсные языки не обладают достаточным набором готовых инструментов, позволяющих их легко интегрировать в современные речевые технологии.

Актуальность выбранного направления исследований подтверждается прогнозами ведущих ИТ экспертов, в соответствии с которыми естественные интерфейсы человеко-машинного взаимодействия являются одними из наиболее актуальных технологических инноваций.

Совершенствование и разработка основных методов предсказания просодических признаков таких как места пауз, длительность фонем и

акустических признаков таких как контур основного тона, является крайне важным направлением в области речевых технологий. Об этом свидетельствует множество докладов на международных конференциях по проблемам обработки речи для диалоговых систем, таких как ICASSP, Interspeech и SPECOM. Также над данной тематикой работает большое число известных современных ученых таких, как A. W. Black, N. Campbell, S. King, Б.М. Лобанов и др.

Степень разработанности темы. С начала 50-х годов прошлого века интенсивные исследования привели к созданию первой системы формантного синтеза речи. В последующие два десятилетия исследования в этой области породили множество работ по базовым методам лингвистической и просодической обработки. Однако сам синтез речи не выходил за рамки формантного подхода. С широким распространением компьютеров, начало 90-х было ознаменовано новым подходом к генерированию речи - Unit-Selection. Синтез речи с помощью Unit-Selection кардинально отличался от формантного синтеза высоким качеством и естественностью. Для максимального приближения синтезированной речи к естественной человеческой с помощью Unit Selection требовалось иметь большой речевой корпус и серьезные вычислительные мощности. Однако данный подход имел свои недостатки, кроме высокой стоимости, например, низкую гибкость. Фактически было невозможно было менять акустические признаки во время синтеза речи для улучшения экспрессивности речи или изменения ее эмоциональности. Конец 90-х и начало 2000-х стал свидетелем нового подхода к генерированию речи из текста, известным как статистический параметрический синтез речи (СПСР). СПСР решает основные проблемы, с которыми столкнулся Unit-Selection. Эта технология позволяет изменять акустические признаки во время синтеза речи, требует небольшого объема места для хранения данных, и очень удобна для исследования влияния акустических параметров на эмоциональность речи.

До начала 2010-х технология скрытых марковских моделей (СММ) доминировала в системах СПСР благодаря ряду преимуществ, в частности, таких как надежность и скорость вычисления. Однако, несмотря на то что, технология

СММ работает достаточно эффективно, она имеет серьезные ограничения в точности предсказания акустических параметров, поскольку, как показала практика, деревья принятий решении неэффективны для моделирования сложных контекстных зависимостей.

Применение глубокой нейронной сети (англ. Deep Neural Network, сокращенно DNN) в СПСР показало, что нейронные сети могут достичь большей естественности речи, чем традиционные СММ, даже с одинаковым количеством параметров. Позднее в 2015 году Хейга Зен первым применил нейронные сети с долгой краткосрочной памятью (англ. Long-Short Term Memory, сокращенно LSTM), благодаря чему акустическое моделирование в СПСР перешло от покадрового на более эффективное моделирование по последовательности.

Однако речевые параметры, генерируемые этими моделями, получаются сильно сглаженными, в результате чего качество речи по-прежнему остается невысоким по сравнению с естественной речью. Эффект сильно сглаженных акустических параметров является одной из сложнейших проблем в синтезе речи.

Также стало очевидным, что степень научной проработки таких технологий сильно отличается для различных языков. Одним из основных и важных направлений является разработка высококачественных методов просодической и лингвистической обработки для малоресурсных языков.

Целью диссертационной работы является исследование и развитие подходов повышения качества звучания в системах синтеза казахской речи.

Для достижения поставленной цели решались следующие задачи:

1. Исследование современных подходов к синтезу речи.

2. Разработка метода просодической обработки для малоресурсных языков на основе параметров, полученных из анализа дистрибутивной семантики текстовых корпусов.

3. Разработка метода акустической обработки для улучшения точности предсказания акустических параметров и снижения эффекта сглаженности речи.

4. Разработка комплекса программных средств для синтеза речи на казахском языке на основе глубокого машинного обучения.

5. Проведение экспериментальных исследований для синтеза речи на казахском языке разработанным комплексом программных средств.

Объектом исследования является система синтеза речи для малоресурсных языков.

Предметом исследования являются методы просодической и акустической обработки для статистического параметрического синтеза речи на основе глубокого машинного обучения.

Научная новизна:

1. Предложен метод предсказания расстановки пауз и длительности пауз на основе векторного и битового представления слов, позволяющий решить проблему отсутствия классификаторов частей речи, именных сущностей и других морфо-грамматических анализаторов при создании систем синтеза речи для малоресурсных языков.

2. Впервые предложены методы предсказания длительности фонем и предсказания контура основного тона казахской речи для синтеза речи на казахском языке, позволяющие подстраивать предсказанные параметры для улучшения естественности синтезированной казахской речи.

3. Разработан новый метод обучения акустической модели на основе генеративной состязательной сети, позволяющей повысить точность предсказания акустических параметров на плохо размеченных и плохо сбалансированных обучающих данных за счет учета распределения акустических параметров и их связи с лингвистическими параметрами.

Основные положения, выносимые на защиту:

1. Методы предсказания расстановки пауз и длительности пауз, отличающиеся использованием векторного и битового представления слов при статистическом параметрическом синтезе речи и позволяющие решить проблему отсутствия классификаторов частей речи, именных

сущностей и других морфо-грамматических анализаторов при создании систем синтеза речи для малоресурсных языков.

2. Метод предсказания длительности фонем и предсказания контура основного тона казахской речи, отличающийся возможностью подстройки предсказанных параметров для улучшения естественности синтезированной казахской речи.

3. Метод обучения акустической модели, отличающийся использованием генеративной состязательной сети для повышения точности предсказания акустических параметров на плохо размеченных и плохо сбалансированных обучающих данных за счет учета распределения акустических параметров и их связи с лингвистическими параметрами.

Методология и методы исследования. В работе использованы методы теории вероятностей и статистического анализа, теории нейронных сетей, цифровой обработки сигналов и прикладной лингвистики.

Достоверность научных положений и выводов, полученных в рамках диссертационной работы, обеспечивается результатами экспериментальных исследований и успешным представлением основных положений в докладах на ведущих международных конференциях.

Теоретическая значимость работы заключается в развитии методов просодической и акустической обработки для задачи синтеза речи малоресурсных языков.

Практическая значимость работы заключается в возможности использования разработанных методов при создании систем синтеза речи для систем человеко-машинного взаимодействия, речевых диалоговых систем и голосовых интерфейсов.

Внедрение результатов работы. Результаты диссертационной работы использовались при проведении прикладных научных исследований:

- НИР «Синтез эмоциональной речи на основе глубокого машинного обучения» № 617040.

- НИР «Синтез эмоциональной речи на основе генеративных состязательных сетей» № 618278.

- НИР «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах» (проект 5-100) № 718574.

- НИР «Исследование методов и алгоритмов многомодальных биометрических и речевых систем» (проект 5-100) № 713554.

- НИР «Голосовой портрет человека с типичным и атипичным развитием», грант РНФ № 18-18-00063.

- НИР «Создание гибридной системы диалогового взаимодействия на естественном языке, способной к самообучению, самостоятельному принятию решений и прогнозированию, на основе обработки больших данных, глубоких нейронных сетей и искусственного интеллекта», соглашение № 14.575.21.0178 от 26.11.2018, № 380281.

Результаты работы также были внедрены в учебный процесс Университета ИТМО по дисциплине «Синтез речи».

Апробация результатов работы. Основные результаты работы представлялись и обсуждались на следующих международных и российских конференциях: XLVI, XLVII и XLVIII Научная и учебно-методическая конференция Университета ИТМО (Санкт-Петербург, Россия, 2017-2019); VI, VII и VIII Всероссийский конгресс молодых ученых (Санкт-Петербург, Россия, 20172019); 19th International Conference on Speech and Computer (Хатфилд, Великобритания, 2017); 20th International Conference on Speech and Computer (Лейпциг, Германия, 2018); 21th International Conference on Speech and Computer (Стамбул, Турция, 2019); 4th International Conference on Engineering and MIS (Стамбул, Турция, 2018); 5th International Conference on Engineering and MIS (НурСултан, Казахстан, 2019); International Conference «Quality Management, Transport and Information Security, Information Technologies» (Санкт-Петербург, Россия, 2018).

Личный вклад автора. Автором лично проведен анализ существующих подходов генерирования речи из текста. На основе проведенного анализа автором разработаны методы лингвистической, просодической и акустической обработки для статистического параметрического синтеза речи. Автором лично выполнена реализация предложенных методов в виде комплекса программных средств.

Подготовка основных публикаций проводилась с соавторами, при этом вклад автора был основным.

Публикации. Основные результаты по теме диссертации изложены в 13 публикациях. Из них 3 изданы в журналах, рекомендованных ВАК, 7 опубликованы в изданиях, индексируемых в базе цитирования Scopus. Также имеется 3 свидетельства о государственной регистрации программ для ЭВМ.

Содержание работы

Во введении диссертационной работы обоснована актуальность проводимых исследований. Сформулированы цель, задачи и положения, выносимые на защиту. Изложена научная новизна и практическая значимость полученных в диссертационной работе результатов.

В первой главе представлено описание развития методов синтеза интонационной речи от истоков до настоящего времени. Рассмотрены исторические этапы, сыгравшие определяющую роль в становлении научного направления синтеза речи.

Даны общие характеристики современных подходов к синтезу речи, выявлены преимущества и недостатки каждого подхода.

Можно выделить три основных современных подхода к синтезу речи:

- Unit Selection

- Статистический параметрический синтез речи

- End-to-end системы

Unit Selection использует готовые отрезки фонограммы речи для последующего их объединения в единый звуковой поток. До недавнего времени это был наиболее распространенный подход для синтеза речи. Преимуществом данного подхода является достаточно высокое качество синтезированной речи, а к ее недостаткам можно отнести высокую стоимость разработки и эксплуатации, необходимость в высококвалифицированных специалистах в области лингвистики и фонетики, высокие требования к объему базы данных и зависимость эмоциональной окраски синтезированной речи от тональности речевого корпуса.

Статистический параметрический синтез речи (СПСР) традиционно отстает по качеству синтезированной речи от подхода Unit Selection. Однако преимуществом СПСР является гибкость, требуемые относительно небольшие вычислительные ресурсы. Благодаря гибкости СПСР становится проще управлять интонационными характеристиками синтезируемой речи.

End-to-end подход представляют собой новое поколение систем синтеза речи, появление которых стало возможным благодаря взрывному росту вычислительных возможностей современных компьютеров. Преимуществом данного подхода является высокое качество речи и относительно небольшие затраты на создание образца голоса. К недостаткам можно отнести требование по наличию большой представительной базы данных, больших вычислительных ресурсов и не всегда хорошую интонационную управляемость (например, для выражения незавершенности).

Были рассмотрены различные методы генерирования экспрессивной речи, а также современные методы классификации значений акустических параметров в соответствии с эмоциональными состояниями.

Во второй главе представлено описание технологии статистического параметрического синтеза речи, которая по результатам анализа в первой главе была выделена как наиболее предпочтительный вариант для синтеза интонационной речи. Предложенные методы СПСР были разработаны автором для казахского языка, однако эти подходы могут быть применены и для других, в особенности малоресурсных языков. На рисунке 1 показана схема этапов синтеза

речи с помощью СПСР, где на вход подается текст, а на выходе получается синтезированная звучащая речь.

СПСР условно можно разделить на пять основных этапов.

Рисунок 1 - Схема этапов статистического параметрического синтеза речи

Лингвистическая обработка. На этом этапе проводится нормализация текста; применяется стемминг для лексического анализа текста; вычисляется

векторное представление слов и битовое представление слов из кластерной модели Брауна1 для синтаксического и семантического анализа текста.

Стемминг2 — это метод текстовой нормализации, применяемый в области обработки естественного языка, который используется для подготовки текста и документов для дальнейшей обработки. Эта технология подразумевает процедуру нахождения основы слова из исходного слова, не используя для этого морфологически анализатор. При этом найденная основа слова может не совпадать с морфологическим корнем слова. Простейшие реализации алгоритма стемминга последовательно отрезают часто встречаемые окончания и начала слов, используя для этого небольшую таблицу правил.

Параметры распределения слов в больших текстовых корпусах используются для анализа лингвистического и семантического свойств слов. Так, параметры лексических представлений, полученные из кластерной модели Брауна и др., и векторные представления слов, полученные алгоритмом Стратоса и др.3 могут применяться для эффективного быстрого извлечения векторов малой размерности, содержащих семантическую и синтаксическую информацию текста.

Фонетическая обработка. На этой стадии каждое слово преобразуется в фонетическую последовательность. Существует несколько основных подходов к решению этой задачи. Самый простой подход - составление словарей. Это решение имеет высокую точность, но требует больших ресурсов для создания и постоянной модификации с появлением новых слов. Другой подход - составление набора правил преобразования слов в произношение. Здесь также требуются большие трудозатраты (необходимы высококвалифицированные специалисты лингвисты в сфере конкретного языка). К тому же не все языки легко подвергаются такому описанию (например, английский). При этом точность такого решения меньше, чем

1 Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D., and Lai, J. C. Class-based n-gram models of natural

language // Computational linguistics. 1992. V. 18. P.467-479.

2 Lovins Julie Beth. Development of a Stemming Algorithm // Mechanical Translation and Computational Linguistics.

— 1968. — T. 11.

3 Stratos K. et al. A Spectral Algorithm for Learning Class-Based n-gram Models of Natural Language //UAI. - 2014. -

P. 762-771.

для словарного подхода, но для обработки новых слов такой подход более гибкий. Часто оба эти подхода комбинируют.

Статистические методы построения транскрипций неплохо заменяет транскрибирование по правилам, при этом требуя значительно меньше человеческих ресурсов при подготовке транскрипций для нового языка, чем предыдущие методы. Однако здесь тоже есть свои трудности. Во-первых, точность современных методов статистического транскрибирования для сложных языков (в смысле правил преобразования) около 80-85%. Этого часто достаточно при генерации транскрипций для распознавания речи. Но для задачи синтеза речи нужны более точные транскрипции, использующие множество редукций и зависящие от контекста соседних слов. Второй вопрос для данного подхода -наличие и качество представительной базы (словаря соответствий) для построения самой модели, что является серьезным ограничением для малоресурсных языков.

В силу вышеперечисленных трудностей использование статистических методов построения транскрипций осталось за рамками данной работы.

Просодическая обработка. Здесь определяются такие параметры как паузация, длина фонем необходимые для синтеза речи. Параметры могут извлекаться из лингвистических данных с помощью заранее подготовленных правил, или предсказываться статистическими методами.

Для достижения близкого к естественному уровню синтеза речи, наборы просодических признаков могут варьироваться исходя от особенностей языков. В тоже время существует минимальное количество просодических параметров, без которых систему синтеза речи невозможно построить. Это - места пауз, длина пауз, длина фонем и тип контура основного тона.

Взаимодействие факторов, влияющих на паузацию, плохо изучено. Выявлены скорее тенденции, а не закономерности, и даже для замеченных тенденций нет достаточно формализованного описания текстовых ситуаций, характеристики которых могли быть использованы для автоматической расстановки пауз.

Паузы в предложениях могут быть разных длительностей. Самые короткие, меньшие 80 мс, фактически не заметны при прослушивании речи. Обычный диапазон пауз в предложениях в среднем от 80 до 350 мс. Конечно, встречаются и могут быть паузы больших длительностей, но частота их появления не велика.

Как и паузы, фонемы могут быть разной длительности. Длительность фонем зависит от множества факторов, в том числе и от скорости речи самого диктора. Скорость речи может стать основным фактором влияния на всю просодику речи, включая длительность фонем. Очевидно, что на длительность фонемы большое влияние оказывают соседние фонемы, эмоциональный тон, возраст и пол говорящего. Так, например, эмоциональная возбужденная речь может способствовать более коротким длительностям фонем, когда как подавленное состояние человека может быть причиной растягивания речи.

Ударения также могут быть важным признаком, влияющим на длительность фонем, как это происходит, например, в русском языке. Для агглютинативных языков, которым является казахский язык, этот фактор не так важен. Благодаря агглютинативным свойствам, в казахском языке ударение всегда ставится на последний слог, кроме некоторых заимствованных слов.

Важную роль на этапе просодической обработки играет интонационный контур, под которым будем понимать траекторию основного тона на синтагме с заданным фразовым ударением. Естественность синтезированного сигнала в значительной степени определяется качеством определения интонационного контура, в зависимости от которого идентичные высказывания могут иметь различное семантическое значение.

Задачей синтеза речи является моделирование естественной человеческой речи. Однако человеческая речь определяется большим числом параметров, в том числе и скрытых, которые изменяются в зависимости от множества факторов, включая стили произношения, физического состояния говорящего и речевого домена. По этой причине специалисты предпочитают использовать речевой корпус одного диктора для моделирования основных параметров речи, где для речевого корпуса должен быть определен один домен. Использование корпуса с разными

доменными областями может иметь множество коллизий или сильных расхождений при выстраивании последовательностей просодических и акустических признаков.

В настоящее время методы определения просодических параметров опираются на наличие морфологической информации входного текста. Как уже отмечалось ранее, для малоресурсных языков такая информация крайне скудна или вообще отсутствует. Все это побуждает к развитию новых методов просодической обработки для этих языков. В главе 3 предложены решения в этом направлении.

Акустическая обработка. Наряду с просодическими признаками, крайне важным аспектом создания синтезатора речи является нахождение качественного метода предсказывания акустических параметров, позволяющего добиться реалистичной имитации голоса. На этой стадии по просодическим и лингвистическим признакам вычисляются акустические параметры, главные из которых, мел-частотные кепстральные коэффициенты (МРСС) и частота основного тона (Р0). Эта задача решается с привлечением ресурсов языка, соответственно, для малоресурсных языков трудно рассчитывать на хорошие результаты.

Величина частоты основного тона, непрерывно изменяемая в процессе произнесения речи, определяется особенностями строения его гортани и зависит от размера и степени натяжения связок. Траектория частоты основного тона (увеличение и уменьшение его значения) в процессе речеобразования определяет интонационную окраску диктора.

Диапазон изменения основного тона находится в пределах от 50 до 250 Гц для мужчин и от 120 до 500 Гц для женщин4.

Сложная зависимость между входными лингвистическими, просодическими и выходными акустическими признаками делает этап трудно реализуемым. Акустические параметры влияют не только на качество синтезируемой речи. С их помощью возможно частично управлять экспрессивностью синтезированной речи

4 Fant G. Acoustic theory of speech production, The Hague, The Netherlands, Mouton, 1960.

- одним из важнейших современных направлений синтеза. В главе 3 представлено одно из возможных решений в области акустического моделирования.

Вокординг. Это заключительная фаза синтеза речи. Здесь, полученные на предыдущем этапе акустические признаки преобразуются в речевой аудиосигнал. В работе для этих целей использовался вокодер WORLD5, который является одним из самых высококачественных и широко применяемым вокодером в речевых технологиях. Во многих сравнительных исследованиях67 вокодер WORLD показывает устойчиво высокие результаты, и зачастую превосходит по сравнительным показателям аналоги.

Таким образом, естественность синтезированной речи и ее эмоциональность во многом определяется на этапах просодической и акустической обработки.

Исследования проводились на корпусе казахского языка «Асель»8, разработанного компанией «Центр речевых технологий» при участии Костанайского университета. Разработанные методы могут быть применены и для других малоресурсных языков.

В третьей главе представлены разработанные автором основные алгоритмические решения для этапов просодической и акустической обработки, включающие в себя определение мест пауз, длительности пауз, длительности фонем, предсказание акустических признаков.

В разработанном алгоритме предсказание мест пауз проводилось на уровне биграмм, где входными параметрами биграммы служили векторные представления обеих его слов, их битовое представление в кластерной модели Брауна, и сами слова. Для классификации биграмм был выбран метод опорных векторов9.

5 Morise M., Yokomori F., Ozawa K. WORLD: a vocoder-based high-quality speech synthesis system for real-time

applications //IEICE TRANSACTIONS on Information and Systems. - 2016. - T. 99. - №. 7. - C. 1877-1884.

6 Morise M., Watanabe Y. Sound quality comparison among high-quality vocoders by using re-synthesized speech //Acoustical Science and Technology. - 2018. - T. 39. - №. 3. - C. 263-265.

7 Watts O., Valentini-Botinhao C., King S. Speech Waveform Reconstruction Using Convolutional Neural Networks

with Noise and Periodic Inputs //ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE, 2019. - C. 7045-7049.

8 Khomitsevich O., Mendelev V., Tomashenko N., Rybin S., Medennikov I., Kudubayeva S. A Bilingual Kazakh-Russian

System for Automatic Speech Recognition and Synthesis // Lecture Notes in Computer Science, 2015. V. 9319, P. 25-33.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Калиев Арман, 2019 год

Литература

1. Brown P.F., Desouza P.V., Mercer R.L. et. al. Class-based n-gram models of natural language // Computational Linguistics. 1992. V. 18. P. 467-479.

2. Stratos K., Kim D., Collins M., Hsu D. A spectral algorithm for learning classbased n-gram models of natural language // Proc. 30th Conf. on Uncertainty in Artificial Intelligence. Quebec, Canada, 2014. P. 762-771.

3. Miller S., Guinness J., Zamanian A. Name tagging with word clusters and discriminative training // Proc. Human Language Technologies and North American Association for Computational Linguistics. 2004. V. 4. P. 337-342.

4. Koo T., Carreras X., Collins M. Simple semi-supervised

References

1. Brown P.F., Desouza P.V., Mercer R.L. et. al. Class-based n-gram models of natural language. Computational Linguistics, 1992, vol. 18, pp. 467-479.

2. Stratos K., Kim D., Collins M., Hsu D. A spectral algorithm for learning classbased n-gram models of natural language. Proc. 30h Conf. on Uncertainty in Artificial Intelligence. Quebec, Canada, 2014, pp. 762-771.

3. Miller S., Guinness J., Zamanian A. Name tagging with word clusters and discriminative training. Proc. Human Language Technologies and North American Association for Computational Linguistics, 2004, vol. 4, pp. 337-342.

4. Koo T., Carreras X., Collins M. Simple semi-supervised

dependency parsing // Proc. 46th Annual Meeting of the Association for Computational Linguistics, ACL-08: HLT. Columbus, USA, 2008. P. 595-603.

5. Lancia F. Word Co-occurrence and Theory of Meaning. 2005. URL:

www.soc.ucsb.edu/faculty/mohr/classes/soc4/summer_08/pages /Resources/Readings/TheoryofMeaning.pdf (дата обращения: 25.04.2017).

6. Cortes C., Vapnik V. Support vector networks // Machine Learning. 1995. V. 20. N 3. P. 273-297. doi: 10.1023/A:1022627411411

7. Rijsbergen C.J.V. Information Retrieval. 2nd ed. London: Butterworths, 1979. 152 p.

8. Chistikov P.G., Khomitsevich O.G. Improving prosodic break detection in a Russian TTS system // Lecture Notes in Computer Science. 2013. V. 8113. P. 181-188. doi: 10.1007/978-3-31901931-4 24

dependency parsing. Proc. 46h Annual Meeting of the Association for Computational Linguistics, ACL-08: HLT. Columbus, USA, 2008, pp. 595-603.

5. Lancia F. Word Co-occurrence and Theory of Meaning. 2005. Available at: www.soc.ucsb.edu/faculty/mohr/classes/soc4/summer_08/pag es/Resources/Readings/TheoryofMeaning.pdf (accessed: 25.04.2017).

6. Cortes C., Vapnik V. Support vector networks. Machine Learning, 1995, vol. 20, no. 3, pp. 273-297. doi: 10.1023/A:1022627411411

7. Rijsbergen C.J.V. Information Retrieval. 2nd ed. London, Butterworths, 1979, 152 p.

8. Chistikov P.G., Khomitsevich O.G. Improving prosodic break detection in a Russian TTS system. Lecture Notes in Computer Science, 2013, vol. 8113, pp. 181-188. doi: 10.1007/978-3319-01931-4 24

Авторы

Калиев Арман - аспирант, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация,

kaliyev. arman@yandex. 1«

Authors

Arman Kaliyev - postgraduate, ITMO University, Saint Petersburg, 197101, Russian Federation,

kaliyev.arman@yandex.kz

НАУЧНО-ТЕХНИЧЕСКИИ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИИ, МЕХАНИКИ И ОПТИКИ сентябрь-октябрь 2019 Том 19 № 5 ISSN 2226-1494 http://ntv.itmo.ru/

SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTCS September-October 2019 Vol. 19 No 5 ISSN 2226-1494 http://ntv.itmo.ru/en/

ИНШОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ

УДК 004.934.5 doi: 10.17586/2226-1494-2019-19-5-951-954

АКУСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ДЛЯ СИНТЕЗА КАЗАХСКОЙ РЕЧИ

А.К. Калиев, С.В. Рыбин

Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация Адрес для переписки: kaliyev.arman@yandex.kz Информация о статье

Поступила в редакцию 27.06.19, принята к печати 22.07.19 Язык статьи — русский

Ссылка для цитирования: Калиев А.К., Рыбин С.В. Акустическое моделирование для снтеза казахской речи // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. № 5. С. 951-954. doi: 10.17586/2226-1494-2019-19-5-951-954

Аннотация

Представлена новая конструкция генеративно-состязательной сети для обучения акустической модели синтеза речи. Предлагаемая конструкция состоит из генератора и двух дискриминаторов, где генератор предсказывает акустические параметры из лингвистического представления. Обучение и тестирование производились на корпусе казахского языка, который состоял из 5,6 ч записи речи. По результатам экспериментов была получена 3,46 средняя экспертная оценка, что говорит о достаточно приемлемом качестве синтезе речи. Данный подход может быть применим при создании технологий синтеза речи для других языков. Ключевые слова

акустическая модель, синтез речи, казахский язык, генеративно-состязательная сеть (ГСС), речевой корпус Благодарности

Исследования выполнены за счет стартового финансирования Университета ИТМО в рамках НИР № 618278 «Синтез эмоциональной речи на основе генеративных состязательных сетей».

doi: 10.17586/2226-1494-2019-19-5-951-954

ACOUSTIC MODELING FOR KAZAKH SPEECH SYNTHESIS

A.K. Kaliyev, S.V. Rybin

ITMO University, Saint Petersburg, 197101, Russian Federation Corresponding author: kaliyev.arman@yandex.kz Article info

Received 27.06.19, accepted 22.07.19 Article in Russian

For citation: Kaliyev A.K., Rybin S.V. Acoustic modeling for Kazakh speech synthesis. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2019, vol. 19, no. 5, pp. 951-954 (in Russian). doi: 10.17586/2226-1494-2019-19-5-951-954

Abstract

We present a new framework of generative adversarial network for training of acoustic model for speech synthesis. The proposed generative adversarial network consists of a generator and a pair of agent discriminators, where the generator predicts the acoustic features from the linguistic representation. Training and testing were carried out on the Kazakh speech corpus, which consisted of 5.6 hours of speech recording. According to the experiment results the 3.46 mean opinion score was obtained which shows an acceptable quality of speech synthesis. This approach of the acoustic model development can be applied in speech synthesis systems of the other languages. Keywords

acoustic model, speech synthesis, Kazakh language, generative adversarial network (GAN), speech corpus Acknowledgements

This work was financially supported by the initial funding from ITMO University within the framework of research practice No. 618278 "Emotional speech synthesis based on generative adversarial networks".

В синтезе речи, как и в распознавания речи, изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи. Акустическая модель в синтезе речи позволяет генерировать акустические параметры для каждого речевого сегмента. В данной работе представлена новая конструкция генеративно-состязательной сети (ГСС) для обучения акустической модели синтезатора речи.

Как показано на рисунке, ГСС состоит из двух дискриминаторов и одного генератора. Оба дискриминатора помогают генератору учитывать распределение акустических параметров и таким образом нивелировать эффект сглаженности речевого сигнала — одной из сложнейших нерешенных проблем технологии синтеза речи [1,2]. Эффект сглаженности речевого сигнала появляется при обучении нейронной сети (НС) с использованием функции среднеквадратичного отклонения. При таком подходе перестают учитываться небольшие флуктуации в угоду уменьшения общего отклонения предсказанных данных. Однако слух человека способен воспринимать и различать все мельчайшие детали в речи, и в итоге такая речь человеком воспринимается как искусственная, или «сглаженная». Входными параметрами дискриминаторов служат как акустические, так и лингвистические параметры, благодаря этому дискриминаторы обращают внимание не только на распределение входных параметров, но и на связь лингвистических параметров с акустическими.

Была проведена Mean Opinion Score (MOS, средняя экспертная оценка) оценка качества предложенной модели ГСС на корпусе казахского языка «Асель» [3]. Выбор языка обусловлен проработанностью авторами подходов предсказания просодических параметров и других наработок в этой области [4-6]. Речевой корпус состоял из 5,6 ч нейтральной речи женского голоса или 6 тысяч отдельных фраз и предложений. Для тестового набора было случайным образом выбрано 50 предложений, и таким же образом было выбрано 50 предложений для проверочного набора. Во время проведения экспериментов акустические параметры извлекались с частотой 200 Гц (5 мс) из звукового сигнала частоты дискретизации 22 кГц. Для каждого отсчета вычислялось 97 лингвистических параметров. Акустические параметры извлекались с помощью вокодера WORLD [7]. Лингвистическими параметрами служили индексы слов и фонем, места пауз, длительность фонем и пауз, позиция фонемы в слове и в предложении, фонетические признаки фонем и другие признаки. Акустическими параметрами были F0 и мел-частотные кепстральные коэффициенты.

Традиционно ГСС состоят из конкурирующих нейронных сетей, которые условно разделяют на генератор G и дискриминатор D. Генератор предсказывает из вектора лингвистических параметров x вектор акустических параметров y:G(x):x^y. В то же время в дискриминатор D подается вектор акустических параметров у, сгенерированный с помощью генератора G, и вектор акустических параметров у, полученный с помощью вокодера WORLD из корпуса речевых данных «Асель». Во время обучения дискриминатор учится определять, какие акустические параметры получены из реального речевого сигнала, а какие — «не настоящие». Соответственно, генератор обучается обманывать дискриминатор, предсказывая акустические параметры, максимально близкие к разметке корпуса «Асель».

На практике во время такой схемы обучения, к сожалению, генератор стремится генерировать распределение акустических параметров не близкое к естественному, а то, которое «обмануло» бы дискриминатор [2]. Для решения этой проблемы генератор предварительно обучается с использованием функции среднеквадратического отклонения (MSE) Lmse(y, у), затем во время обучения всей ГСС проводится только несколько итераций. Таким образом, удается сохранить свойства предварительно обученного генератора, при этом полученное акустическое распределение становится более близким к естественному.

Для того чтобы дискриминатор также провоцировал генератор находить связь между акустическими и лингвистическими параметрами, предлагается подавать в дискриминатор не только вектор акустических параметров, но и вектор лингвистических параметров. Однако загружая дискриминатор дополнительными параметрами в свою очередь можно столкнуться с тем, что во время обучения дискриминатор будет невольно больше фокусироваться на лингвистических параметрах или же дискриминатору будет сложно найти взаимосвязь между лингвистическими и акустическими параметрами. Так как лингвистических параметров намного больше, чем акустических, то обучение ГСС может пойти по нежелательному сценарию. Для исключения этой ситуации было предложено расширить стандартный ГСС с «Пара-Агент» структурой, как показано на рисунке, где добавлен второй дискриминатор, принимающий на порядок меньшее количество лингвистических параметров.

LGadvl

CNN

LGadv2

Рисунок. Архитектурная конструкция предложенной генеративно-состязательной сети

А.К. Калиев, С.В. Рыбин

Агенты 1 и 2 — это условные дискриминаторы Dx и D2 соответственно, реализованные сверточны-ми нейронными сетями (CNN). Входными данными Di служит вектор из акустических и лингвистических параметров. Дискриминатор D2 принимает вектор акустических и вектор u С x 11 наиболее важных лингвистических параметров. Эти лингвистические параметры были отобраны авторами в результате экспериментов.

Конечная функция ошибки генератора будет выглядеть следующим образом:

Е Е

^mse т , w _А

Gadvl 2 ß

LOadv 1 LGadv2

Lr=L +w. JLmse Lr + Lr ,,,

G mse 1 Gaav 1 2 ß Gadvl '

где L^p-p^ — функция среднеквадратического отклонения; LQadvl и LQadv2 — соревновательная функция ошибки генератора для дискриминаторов Dj и D2; EL , ELg d j, EG d — ожидаемые значения

Е Е mSe aV aV ELmse, ELGadv\, и ELGadv2 соответственно; ——— и —-— — шкала нормализации; wj и W2 — вес функций

LGaiv\ LGadv2

ошибок.

В качестве генератора была использована предварительно обученная нейронная сеть LSTM (LongShort Term Memory, долгая краткосрочная память), дискриминаторами служили CNN. Архитектура LSTM — однонаправленная, 3-слойная НС, в каждом слое по 256 блоков памяти. Для каждого слоя в LSTM использовалась Tanh функция активации. Каждый дискриминатор состоял из одного сверточного слоя с пулами, ReLU функцией активации и полносвязным слоями, за которыми следует еще один полносвязный слой. На выходе получается значение, представляющее вероятность того, что входные данные являются «реальными».

Для оценки качества сгенерированной речи была проведена MOS оценка. Всего в опросе участвовали 11 носителей казахского языка. Им было предложено оценить 6 наборов записей. Для каждого набора слушателям предлагалось прослушать и оценить каждую запись отдельно. Каждую аудиозапись разрешалось прослушать неограниченное количество раз, но было рекомендовано ограничиваться 2-3 прослушиваниями.

По результатам опроса была получена MOS-оценка 3,46, что говорит о достаточно приемлемом качестве синтезе речи. По мнению авторов, для улучшения качества синтезируемой речи и приведению к результатам современного уровня достаточно увеличения выборки обучения в 3-4 раза и повышения качества разметки речевых данных. Также есть уверенность, что представленный метод может быть применим для высокоресурсных языков с большими данными обучения.

Таким образом, представлена новая конструкция ГСС для обучения акустической модели синтеза речи. На основании полученной MOS-оценки можно утверждать, что представленный подход позволяет разрабатывать технологию синтеза речи достаточно приемлемого качества для малоресурсных языков, которым является казахский язык [8]. Важно отметить, что в новой конструкции ГСС дискриминаторы обращают внимание не только на распределение акустических параметров, но и на связь лингвистических параметров с акустическими. Несмотря на то что обучение и тестирование проводилось на корпусе казахского языка, авторы предполагают, что такой подход приемлем и для других языков.

Литература

1. Ze H., Senior A., Schuster M. Statistical parametric speech synthesis using deep neural networks // Proc. IEEE International Conference on Acoustics, Speech and Signal Processing. ICASSP. 2013. P. 7962-7966. doi: 10.1109/ICASSP.2013.6639215

2. Saito Y., Takamichi S., Saruwatari H. Statistical parametric speech synthesis incorporating generative adversarial networks // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2017. V. 26. N 1. P. 84-96. doi: 10.1109/ TASLP.2017.2761547

3. Khomitsevich O., Mendelev V., Tomashenko N., Rybin S., Medennikov I., Kudubayeva S. A bilingual Kazakh-Russian system for automatic speech recognition and synthesis // Lecture Notes in Computer Science. 2015. V. 9319. P. 25-33. doi: 10.1007/978-3-319-23132-7_3

4. Kaliyev A., Rybin S.V., Matveev Y. The pausing method based on brown clustering and word embedding // Lecture Notes in Computer Science. 2017. V. 10458. P. 741-747. doi: 10.1007/978-3-319-66429-3_74

5. Kaliyev A., Rybin S.V., Matveev Yu.N., Kaziyeva N., Burambayeva N. Modeling pause for the synthesis of Kazakh speech // Proc. 4th International Conference on Engineering and MIS, ICEMIS. 2018. P. 1-4. doi: 10.1145/3234698.3234699

6. Kaliyev A., Rybin S.V., Matveev Y.N. Phoneme duration prediction for Kazakh language // Lecture Notes in Computer Science. 2018. V. 11096. P. 274-280. doi: 10.1007/978-3-319-99579-3 29

References

1. Ze H., Senior A., Schuster M. Statistical parametric speech synthesis using deep neural networks. Proc. IEEE International Conference on Acoustics, Speech and Signal Processing. ICASSP, 2013, pp. 7962-7966. doi: 10.1109/ICASSP.2013.6639215

2. Saito Y., Takamichi S., Saruwatari H. Statistical parametric speech synthesis incorporating generative adversarial networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, vol. 26, no. 1, pp. 84-96. doi: 10.1109/ TASLP.2017.2761547

3. Khomitsevich O., Mendelev V., Tomashenko N., Rybin S., Medennikov I., Kudubayeva S. A bilingual Kazakh-Russian system for automatic speech recognition and synthesis. Lecture Notes in Computer Science, 2015, vol. 9319, pp. 25-33. doi: 10.1007/978-3-319-23132-7_3

4. Kaliyev A., Rybin S.V., Matveev Y. The pausing method based on brown clustering and word embedding. Lecture Notes in Computer Science, 2017, vol. 10458, pp. 741-747. doi: 10.1007/978-3-319-66429-3_74

5. Kaliyev A., Rybin S.V., Matveev Yu.N., Kaziyeva N., Burambayeva N. Modeling pause for the synthesis of Kazakh speech. Proc. 4th International Conference on Engineering and MIS, ICEMIS, 2018, pp. 1-4. doi: 10.1145/3234698.3234699

6. Kaliyev A., Rybin S.V., Matveev Y.N. Phoneme duration prediction for Kazakh language. Lecture Notes in Computer Science, 2018, vol. 11096, pp. 274-280. doi: 10.1007/978-3-319-99579-3 29

7. Morise M., Yokomori F., Ozawa K. WORLD: a vocoder-based high-quality speech synthesis system for real-time applications // IEICE Transactions on Information and Systems. 2016. V. E99-D. N 7. P. 1877-1884. doi: 10.1587/transinf.2015EDP7457

8. Карпов А.А., Верходанова В.О. Речевые технологии для малоресурсных языков мира // Вопросы языкознания. 2015. № 2. С. 117-135.

7. Morise M., Yokomori F., Ozawa K. WORLD: a vocoder-based high-quality speech synthesis system for real-time applications. IEICE Transactions on Information and Systems, 2016, vol. E99-D, no. 7, pp. 1877-1884. doi: 10.1587/transinf.2015EDP7457

8. Karpov A.A., Verkhodanova V.O. Speech technologies for under-resourced languages of the world. Voprosy jazykoznanija, 2015, no. 2, pp. 117-135. (in Russian)

Авторы

Калиев Арман Куанышевич — аспирант, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, Scopus ID: 55701609000, ORCID ID: 0000-0001-8399-8379, kaliyev.arman@yandex.kz

Рыбин Сергей Витальевич — кандидат физико-математических наук, доцент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, Scopus ID: 57112217900, ORCID ID: 0000-0002-9095-3168, svrybin@itmo.ru

Authors

Arman K. Kaliyev — postgraduate, ITMO University, Saint Petersburg, 197101, Russian Federation, Scopus ID: 55701609000, ORCID ID: 0000-0001-8399-8379, kaliyev.arman@yandex.kz

Sergey V. Rybin — PhD, Associate Professor, ITMO University, Saint Petersburg, 197101, Russian Federation, Scopus ID: 57112217900, ORCID ID: 0000-0002-9095-3168, svrybin@itmo.ru

информатика

Компьютерные инструменты в образовании, 2019

№ 1:5-28

УДК: 004.934.5

http://ipo.spb.ru/journal

doi:10.32603/2071-2340-2019-1-5-28

СИНТЕЗ РЕЧИ: ПРОШЛОЕ И НАСТОЯЩЕЕ

Калиев А.1, аспирант, kaliyev.arman@yandex.kz Рыбин С. В.1, доцент, svrybin@itmo.ru

1 Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, Кронверкский пр., д. 49,197101, Санкт-Петербург, Россия

Аннотация

В статье представлено описание развития методов синтеза интонационной речи от истоков до настоящего времени. Рассмотрены основные подходы, сыгравшие важную роль в становлении научного направления синтеза речи, а также современные перспективные методы. Приведена объемная библиография по данному вопросу.

Ключевые слова: синтез интонационной речи, речевые сигналы, эмоциональная речь, Unit Selection, глубокие нейронные сети, просодика, акустические параметры.

Цитирование: Калиев А., Рыбин С. В. Синтез речи: прошлое и настоящее // Компьютерные инструменты в образовании. 2019. № 1. С. 5-28. doi: 10.32603/2071-23402019-1-5-28

1. РАННЯЯ ИСТОРИЯ

Артикулярный синтез речи. Первые попытки имитации человеческой речи с помощью говорящей машины начались во 2-й половине XVIII века [1]. В 1773 году ученому Кристиану Кратзенштейну, профессору физиологии в Копенгагене, действительному члену Российской Академии Наук, удалось получить гласные звуки с помощью резонансных трубок, подключаемых к музыкальному инструменту Орган [2]. Позже Вольфганг фон Кемпелен построил «Акустико-механическую речевую машину» (1791) [3] в Вене, а в середине 1800-х годов Чарльз Уитстон [4] на основе подхода фон Кемпелена построил свою версию говорящей машины. Используя резонаторы, сделанные из кожи, его машина в ручном режиме могла изменять конфигурацию для производства различных речевых звуков, как показано на рис. 1. Хороший обзор ранней истории синтеза речи можно найти в [6].

Появление вокодеров. Разработанная Гельмгольцем [7] в конце XIX века теория резонаторов дала новый импульс в развитии синтеза речи. Вокальный тракт человека стал рассматриваться как последовательность резонаторов. При этом гласные звуки различаются резонансными частотами, впоследствии названными формантами.

В первой половине XX века исследования, проведенные в лаборатории Белла под руководством Флетчера [8], установили взаимосвязь между спектром речи (распределение потока силы речевого звука по частоте) и его звуковыми характеристиками, а также его разборчивостью, воспринимаемой человеческим ухом. В 30-х годах XX века Гомер Дад-ли под значительным влиянием исследований Флетчера разработал синтезатор речи

Рис. 1. Версия Уитстона говорящей машины Кемпелена (Фланагэн [5])

под названием VODER [9, 10], представляющий собой электрический аналог (с механическим управлением) механической говорящей машины Уитстона. На рис. 2 показана блок-схема аппарата Дадли VODER, состоящего из рычага для выбора смягченного осциллятора или шума и педали для управления частотой осциллятора (высотой звука синтезированного голоса). VODER был продемонстрирован на Всемирной выставке в Нью-Йорке в 1939 году (показано на рис. 3) и был признан важной вехой в эволюции говорящих машин.

Рис. 2. Блок-схема аппарата Гомера Дадли VODER [9]

Таким образом, в результате исследований Флетчера и Дадли была установлена важность спектрального представления сигнала для надежной идентификации фонетических характеристик речи [11].

Развитие вокодеров в СССР1. Поскольку вокодер активно использовался в областях, связанных с государственной безопасностью, до сих пор есть пробелы в истории его развития. Даже в Германии, где был выдан первый патент на устройство, эти пробелы закрыты лишь частично [12,13].

Такая ситуация справедлива и для истории развития вокодеров в Советском Союзе, представление о которой в англоязычной литературе преимущественно основано на романе А. И. Солженицына «В круге первом» (1968, издание 1978 [14]). В нем описаны некоторые подробности о работе автора в «шарашке» (специальной лаборатории МВД — МГБ) по анализу и кодированию речи, расположенной на территории бывшего Александро-Мариинского приюта в Марфино. Это описание послужило основным источником информации зарубежных работ по истории советского вокодера, например, в монографиях по истории развитии речевой техники М. Р. Шредера [15] и по истории вокодера Д. Томп-кинса [16].

После окончания холодной войны появился доступ ко многим документам в бывшем Советском Союзе, в частности, были опубликованы воспоминания некоторых сотрудников лаборатории, например биографические заметки о В. А. Котельникове [17] и книга одного из ведущих инженеров К. Ф. Калачева [18] об истории лаборатории Марфино.

Рис. 3. VODER на Всемирной выставке в Нью-Йорке в 1939 г.

1 Данный раздел написан по материалам работы [11].

Исследования в области вокодеров в Марфино дали несколько замечательных результатов, например:

— была разработана модификация вокодера, в которой часть речевого сигнала была оставлена во временной области, в то время как энергия сигнала в полосах частот передавалась параметрически, позже этот подход стал известен как полувокодер [19];

— был предложен принцип формантного вокодера в форме, также описанной Мансо-ном и Монтгомери в 1950 году [20].

С середины 1950-х годов в отечественной литературе появились открытые публикации по компрессии речи и применении вокодера, например замечательный учебник [21].

Формантный синтезатор речи. Первые аппараты для спектральной визуализации сигналов появились в телекоммуникационных отраслях [5]. Так, в 1946 году учеными лаборатории Белла во главе с Кёнигом [22] был представлен первый спектрограф.

Возможность визуализации речевых сигналов, как, например, визуализация акустического линейного сигнала, стала настоящим прорывом и изменила сам подход в исследовании речевых технологий [5]. Сейчас спектрограф редко упоминается в литературе, но, как и спектр стал естественным средством для фонетического анализа речевого сигнала. Немного позже спектрографа команды Кёнига в лаборатории Хаскинс был разработан синтезатор Pattern Playback, который конвертировал визуальный шаблон сигнала на спектрографе обратно в звуковой ряд [23, 24].

В 1960-х годов был разработан ряд синтезаторов речи, все они основывались на простом методе формантного синтеза, хорошо изученного за предыдущие десятилетие. Как следствие, к началу 1960-х было накоплено большое количество знаний о фонетике и акустике речи, что в дальнейшем вылилось в развитие первых систем синтеза речи по правилам [25]. Но просодические характеристики в этих системах еще не учитывалась, чаще всего они просто настраивалась путем ручного задания длительности фонем и частоты основного тона до приемлемого уровня [26]. В 1987 году Денис Клэтт опубликовал статью, где он более детально дал пояснение к каждой разработке того времени вместе с их хронологией [26].

Благодаря физиологам и фонетистам 1940-х и 1950-х годов и разработкам Pattern Playback, период с 1950-х вплоть до 1970-х годов стал десятилетиями, когда были более точно изучены семантическое, синтаксическое и лексическое влияния на фонетические свойства речи [25, 26]. Так, в развитии порождающих фонологий большую роль сыграли Хомский и Хэйлл, которые в серии своих публикаций представили базовые правила вычисления фонологических представлений из потенциального бесконечного множества предложений [27]. А в 1968 году Игнатуш Маттингли на защите своей диссертации представил первый просодический синтезатор по правилам [26].

Первое в мире использование компьютера для синтеза речи произошло в лаборатории Белла в 1962 г., где Джон Л. Келли использовал для этого свой компьютер IBM 704 [28]. Он также сумел синтезировать ритмичный голос, поющий песню Дэйзи Белл (Daisy Bell), что позже вдохновило друга Джона Джона Пирса использовать синтезированную музыку для сцены из фильма «2001 год: Космическая одиссея» [29, 30].

Как программное приложение или интегральная часть операционной системы синтез речи появился в начале 1980-х в компьютерах, таких как Apple Macintosh и Commodore Amiga [29]. До середины 1980-х исследования в этой области могли позволить себе только крупные лаборатории и компаний, но появление относительно

дешевых и мощных компьютеров способствовало распространению исследований по многим университетам и лабораториям. В дальнейшем, c увеличением компьютерной памяти и вычислительной мощности, исследователи стали искать подходы для улучшения качества синтезируемой речи, что породило множество методов конкатенаций речи [31].

Формантный синтез речи в СССР. К сожалению, разработки речевых технологий в Советском Союзе еще плохо изучены и требуют дальнейших исследований в изучении научных материалов, подготовленных в этой области между 60-ми и 90-ми годами прошлого века. Также надо отметить, что большой вклад в развитие технологии синтеза речи в СССР и на постсоветском пространстве внесли такие замечательные ученые, как Б. М. Лобанов, Е. А. Мурзин, М. Ф. Деркач, О. Ф. Кривнова, Л .В. Бондарко и др.

По материалу [32] первый форматный синтезатор речи для русского языка «ФОНЕМОН-1» появился в начале 70-х годов в Минске. В дальнейшем нам известно о серии промышленных синтезаторов речи «ФОНЕМОН», разработанных в СССР. Так, «ФОНЕМОН-4» имел англоязычную версию, а «ФОНЕМОН-5» был интегрирован в компьютеры класса EC-1840 и IBM-XT.

В конце 80-х — начале 90-х годов финансирование работ по синтезу речи в СССР практически прекратилось, и исследования продолжались только в академическом плане, что негативно сказалось на качестве разработок в этом направлении.

Конкатативный синтез речи. Конкатативный синтез обычно ограничивается одним диктором и использует минимальный речевой корпус. Исследователи сами, по своему усмотрению и опыту, выбирали, какие фонетические единицы использовать для склеивания — чаще это были дифоны. Корпус должен был состоять из всевозможных выбранных фонетических единиц языка. В процессе синтеза, целевая просодика (англ. target prosody) предложения склеивается из этих фонетических единиц с помощью таких методов обработки сигналов, как PSOLA [33]. Синтезированная речь, таким образом, страдала звуковыми артефактами из-за многочисленных склеек и роботизированным звуком характерным для форматных синтезаторов.

Несмотря на огромные усилия исследователей моделировать физические процессы генерации речи с помощью артикулярной модели вокального тракта, а затем на основе модели синтезировать речь, используя временные свойства речи (а позже с помощью конкатенации речевых элементов), качество синтеза речи оставалась неестественным и неприемлемым для человеческого слуха [34]. Одной из причин неудачи синтеза речи с помощью конкатенации стало то, что элементы, использовавшиеся для склеивания, были записаны в лабораторных условиях, где речь была специально записана в просодическом нейтральном тоне. Хотя речевые элементы и содержали соответствующие спектральные характеристики для заданной звуковой последовательности, они не могли достаточно правильно моделировать различные динамические артикуляторные характеристики этой последовательности в разных контекстах [35].

Корпусный подход. Следующий прорыв в технологии синтеза речи произошел в институте Современных Телекоммуникационных Исследований (Advanced Telecommunications Research) в Японии в конце 1980-х — начале 1990-х годов, где Иосинори Сагисака использовал обширную базу данных, хранившую множество различных речевых контекстов для каждого дифона [31, 34, 36]. Для поиска лучшей комбинации дифонов использовалась функция акустической дистанции, которая минимизировала акустические искажения между двумя фонетическими единицами [36]. Основной мотивацией использования обширных баз данных стало предположение, что при использовании большого количества фонем с разными просодическими представлени-

ями и спектральными характеристиками должна синтезироваться более естественная речь, чем это могло быть сделано из небольшого множества речевых элементов [35, 37]. В теории было показано, что при достаточном количестве дифонов и «правильной» их комбинации можно собрать высококачественную речь, максимально близкую к естественной. Однако такой подход с использованием обширных баз данных с тысячами дифонов создал новую проблему, связанную с масштабными вычислениями для поиска «правильных» дифонов.

В это же время под влиянием успехов технологии распознавания речи появились первые попытки использования для синтеза речи методов машинного обучения на основе больших корпусов. Так, в синтезе речи стали применяться скрытые марковские модели для оценки гладкости конкатенации между двумя элементами и для сглаживания спектральных разрывов [38].

CART для предсказывания просодики. Деревья принятий решений для предсказывания просодики первыми применила Хиршберг вместе со своими коллегами [39, 40], затем ряд ученых для той же цели использовали деревья принятий решений в комбинации с Марковскими процессами [41], скрытые Марковские модели [42] и обучение по правилам [43]. Сильверман в 1993 году показал, что просодика намного лучше предсказывается, когда сама модель обучалась на предметно-ориентированном корпусе [44].

В дальнейшем деревья принятий решения оказались чуть ли не самым успешным и распространённым решением для предсказывания просодики. Практически во всех системах CART успешно справлялся со своей задачей. Основной причиной такого успеха является несложный алгоритм и небольшие вычислительные ресурсы, что для систем, требующих непрерывного моделирования просодических характеристик, было крайне важно.

Несмотря на то, что ввод стандартных корпусов был большим шагом вперед, оставалась проблема справедливого сравнения результатов. Многие исследовательские команды публиковали зачастую недостаточно достоверные данные, связанные с их методом оценки и тестирования. Решить эту проблему предполагалось ежегодными соревнованиями, проводимым независимым институтом. Одним из самых первых среди них было соревнование DARPA Resource Management project в 1987 году [29].

В это время параллельно подходу CART для решения задач на отдельных этапах синтеза речи пытались применять искусственные нейронные сети [45-47]. Однако, хотя теоретически было известно, что нейронную сеть с несколькими скрытыми слоями можно использовать для эффективного моделирования, на практике обучить такую сеть в то время было нереально из-за запредельной стоимости вычислений [48].

2. UNIT SELECTION

В 1995 году Роб Донован при защите своей диссертации PhD [49] и параллельно Хант и Блак с системой CHATR [37, 50] в институте Современных Телекоммуникационных Исследований продемонстрировали использование алгоритма Unit Selection, который в последующем стал настоящим трендом в исследованиях синтеза речи.

Описание Unit Selection. Перед началом работы алгоритма Unit Selection на предыдущих этапах работы синтезатора речи производится сегментация речи на фонетические элементы (англ. units), и для каждого элемента определяется вектор его просодических, лингвистических и акустических параметров. Когда требуемые параметры элементов получены, наступает очередь применения метода Unit Selection для выбора оптимальной последовательности их реализаций из звуковой базы данных [37, 49, 50].

Для того чтобы определить, насколько тот или иной элемент базы подходит для синтеза данной единицы, вводятся функции стоимости замены (англ. target cost) и стоимости связи (англ. concatenation cost).

Функция стоимости замены T(щ, ti) определяет расстояние между выбранным элементом и целевым сегментом.

Функция стоимости связи J(ui, Ui_i) определяет расстояние между двумя последовательно выбранными элементами.

Лучшая последовательность из n элементов определяется как минимальная общая стоимость согласно формуле:

n

Y, T (Ui, ti )6t + J (Ui, Ui _i)6 j, i-0

где dt и в j — веса, настраиваемые ручным способом. К началу 2010-х годов Unit Selection становится самым популярным методом синтеза, синтезированная речь которого прямолинейно зависела от качества записей. На соревнованиях Blizzard Challenge 2007 14 из 15 представленных статей работали с Unit Selection синтезом [29].

Несмотря на появившиеся к 2018 году новые подходы к синтезу речи, Unit Selection не утратил своей актуальности. На последних соревнованиях Blizzard Challenge 2018 победу одержала гибридная система синтеза с Unit Selection [51].

3. СТАТИСТИЧЕСКИМ ПАРАМЕТРИЧЕСКИ И СИНТЕЗ РЕЧИ

В начале 2000-х годов, наряду с методом Unit Selection, ростом популярности отметился метод статистического параметрического синтеза речи [52-55]. Впервые такой подход для синтеза речи был предложен в [56]. Статистический параметрический синтез речи может быть описан как система, генерирующая среднее из множества похожих речевых сегментов. Это резко контрастирует с методом Unit Selection, который склеивает естественные речевые единицы для генерации речи.

Несмотря на то, что сторонники статистического параметрического синтеза речи соглашались с мнением, что лучшие образцы Unit Selection конкатативного метода синтеза речи работают лучше, чем любой другой метод статистического параметрического синтеза речи, последний стал само собой отдельным, широко распространённым научным направлением.

Описание статистического параметрического синтеза речи. В типичной системе статистического параметрического синтеза речи сначала выделяются параметрические представления речи, включая спектральные и параметры возбуждения из речевого корпуса. Затем они моделируются с помощью множества генеративных моделей (например с помощью скрытых Марковских моделей (СММ)). Обычно критерий максимального правдоподобия используется для оценки параметров моделей как

X = argmax {p (O\W, Л)},

X

где Л — множества параметров модели, O — обучающая выборка и W — множества слов соотносящихся с O. Затем генерируются речевые параметры o для синтеза последовательности слов w из множества вычисленных моделей Л, так чтобы максимизировать

o = argmaxj p[o\w, Л)} •

o

И, наконец, речевой сигнал реконструируется из параметрических представлений речи. Несмотря на то, что здесь может быть использована любая генеративная модель, широкое распространение получили СММ. Статистический параметрический синтез речи на основе СММ также хорошо известен как синтез речи на основе СММ [52].

Многие исследователи отмечают преимущество статистического параметрического синтеза речи над другими подходами в его гибкости [57-60], небольшом количестве речевых артефактов [61-63] и надежности [64]. Благодаря этому стало возможно изменять голосовые характеристики, стили речи и эмоций [65, 66].

Однако основным болевым местом такого подхода стало качество синтезируемой речи. Хейга Зен и другие в своей статье [67] отметили три основных фактора, которые снижают качество синтезируемой речи: вокодинг, точность акустической модели и сглаженность сигнала.

Для улучшения моделирования акустики ученые, наконец, обратились к нейронным сетям [48,68]. Прогресс в аппаратных средствах (например появление GPU) и в программном обеспечении (например [69] и т. д.) дал возможность обучать многослойные нейронные сети на больших объемах данных.

Глубокие нейронные сети. С 2010 года глубокие нейронные сети были успешно применены для обучения акустической модели в распознавании речи [70-74], кодировании спектрограмм [75], обнаружении голосовой активности [76].

Кроме того, они также были успешно применены для задач статистического параметрического синтеза речи [77-81], преобразования голоса [82-84] и улучшения качества речи [85-87]. В 2015 году Жен Хуа и другие [68] опубликовали статью с полным обзором применения глубоких нейронных сетей для обучения акустической модели в системах статистического параметрического синтеза речи. В статье они разделили их на три подхода. В первом подходе рассмотрены методы применения глубоких нейронных сетей для обучения акустической модели для каждого акустического кластера отдельно. Во втором и третьем подходе использовалась глубокая нейронная сеть для предсказывания акустических параметров, где входными данными служили лингвистические представления. Отличие было в том, что если во втором подходе ученые моделировали входные и выходные данные с помощью совместного распределения вероятностей, то в третьем случае — с помощью условного распределения.

Применения LSTM для синтеза речи. В 2015 году Хейга Зен и Хасим Сак представили синтез речи на основе нейронных сетей долгой краткосрочной памяти (англ. LongShort Term Memory, сокращённо LSTM) [88]. В статье LSTM используется для предсказания длительности пауз, фонем и отдельно для предсказывания акустических параметров. В дальнейшем применение LSTM в статистическом параметрическом синтезе речи для обучения акустической модели станет нормой и классическим подходом. Общая процедура алгоритма может быть представлена следующим образом:

1. Проводится анализ заданного текста.

2. Извлекаются лингвистические представления xl для всех фонем i ^ N , где N — общее количество фонем для заданного текста.

3. Для каждой фонемы xl предсказывается длительность фонемы dl нейронной сетью LSTM Ла.

4. Для каждого кадра т ^ dl фонемы xl

(a) составляется вектор лингвистического представления кадра x\,

(b) предсказывается акустический вектор кадра уТ нейронной сетью LSTM Ла с учетом xlT, где элементами уТ могут быть, например, мел-частотные

кепстральные коэффициенты (MFCC) и частота основного тона (F0) аудио сигнала.

5. С помощью вокодинга yT преобразуется в аудио сигнал.

Согласно полученным результатам, оценка МООС по качеству синтезированной речи на английском языке составила 3.723 ± 0.105. После успешного применения LSTM для синтеза речи уже в 2016 году Хейга Зен и другие представили оптимизированную версию синтезатора речи на основе LSTM, способную работать на мобильных устройствах [89].

Генеративные состязательные сети. Генеративные состязательные сети (англ. Generative adversarial network, сокращённо GAN) показали хорошие результаты акустического моделирования, в частности, благодаря тому, что GAN успешнее решают проблему сглаженности речевого сигнала [90]. Также GAN использовались для улучшения качества вокодера путем моделирования формы голосового сигнала как волны возбуждения [91] в автоматическом распознавании речи для прямого повышения помехоустойчивости акустической модели [92] и в [93] для прогнозирования эмоций из речевого сигнала.

GAN состоят из двух конкурирующих нейронных сетей, которые можно условно разделить на генератор G и дискриминатор D. Генератор генерирует из лингвистического представления x акустический вектор y: G(x): x ^ у. В то же время в дискриминатор D подаются акустические параметры у — сгенерированные с помощью генератора, и y — полученные из базы данных. Во время обучения дискриминатор учится определять, какие акустические параметры получены из реального речевого сигнала, а какие «не настоящие». А генератор обучается обманывать дискриминатор, генерируя акустические параметры, максимально близкие к реальной разметке.

На практике во время такой схемы обучения, к сожалению, генератор стремится генерировать такое акустическое распределение, которое «обмануло» бы дискриминатор, а не являлось бы близким к естественной речи.

В 2017 году Юки Сайто и другие [90] представили GAN для обучения акустической модели, где генератором служил предварительно обученный LSTM. Во время обучения GAN проводилось только несколько итераций, и, таким образом, удалось улучшить акустическое распределение.

Архитектурная конструкция GAN получила большую популярность и широкое применение в современных исследованиях. Она остаётся одним из самых перспективных способов обучения акустической модели для статистического параметрического синтеза речи.

4. END-TO-END МОДЕЛИ

Благодаря появлению больших вычислительных возможностей, в середине 2010-х годов широкое распространение получил end-to-end метод генерирования речи. На рис. 4 представлено генеалогическое дерево, где метод end-to-end является новым направлением развития технологии синтеза речи.

Данный метод предполагает использование одной нейронной сети для генерирования сигнала речи из лингвистических параметров, соединяя, таким образом, акустическую модель с вокодером в одну нейронную сеть. Несмотря на то, что данный метод способен выдавать высококачественный речевой сигнал, он плохо применим для работы в реальном режиме, так как требует очень больших вычислительных ресурсов.

WaveNet новая модель. В сентябре 2016 года группа ученых из исследовательской компании DeepMind в городе Лондон представила глубокую нейронную сеть WaveNet

Рис. 4. Генеалогическое дерево развития технологии синтеза речи

[94] для генерирования необработанного аудио сигнала. WaveNet представляет собой авторегрессивную модель, которая комбинирует каузальные фильтры с расширенной свёрткой (dilated convolutions), что позволяет ей увеличивать рецептивные поля (receptive fields) экспоненциально к глубине. Согласно исследованиям авторов, увеличение рецептивных полей усиливает моделирование долгосрочных временных зависимостей в аудио сигналах.

Для демонстрации возможностей WaveNet она была применена для решения ряда задач, включая синтез речи, где входными данными служили лингвистические представления текста и логарифмическая частота основного тона, а выходными данными был сам аудио сигнал. В экспериментах WaveNet превзошла статистический параметрический и конкатативный (Unit Selection) синтез речи для английского и китайского языка. А качество синтезированной речи было максимально похоже на естественную человеческую речь, что подтверждено оценками МООС 4.21 ± 0.081 для английской синтезированной речи и 4.08 ± 0.085 — для китайской синтезированной речи. В самой статье было только частично дано описание архитектуры нейронной сети WaveNet (рис. 5). В частности, была представлена схема обработки долговременных зависимостей речи, но не было описания схемы обработки лингвистических зависимостей речи.

Через год, в марте в 2017, группа ученых из Стэндфордского Университета Серкан О. Арик и другие представили свою версию нейронной сети WaveNet [95] для компаний Baidu (рис. 6). В опубликованной статье ученые предложили свою схему обработки лингвистических зависимостей речи. Однако, несмотря на эти две сенсационные работы, исследования в этой области ограничены из-за сложности разработки такого рода нейронных сетей.

Рис. 5. Общая схема остаточного блока (residual block) архитектуры нейронной сети WaveNet, представленной компанией DeepMind [94]

Рис. 6. Общая блок схема архитектуры нейронной сети WaveNet, представленной компанией Baidu [95]

Tacotron. Система Tacotron [96] также позволяет конвертировать лингвистические данные в аудио сигнал. Однако отличительной особенностью Tacotron является то, что она включает в себя текстовый анализатор, акустическую модель и детектор длины фонем. Система Tacotron2, которая является комбинацией систем Tacotron и WaveNet, успешно генерировала речевой сигнал, близкий к естественной речи и с очень высокой МООС оценкой [97].

Однако достижения Тасо&оп и ТасаЦ-оп2 были подтверждены только для английского языка, для других языков было проведено очень мало аналогичных исследований [98]. Это вызвано тем, что для реализации Тасо^оп для других языков в первую очередь должны быть разработаны указанные составные части системы.

5. СИНТЕЗ ЭМОЦИОНАЛЬНОЙ РЕЧИ

Несмотря на то, что наша повседневная речь имеет большое количество различных экспрессий, большинство исследований фокусировались на упрощённых случаях, ограничиваясь небольшим количеством категорий экспрессивной речи, включая эмоции. Как правило, в высказываниях и предложениях присутствовал только один стиль.

Системы с явным контролем. Формантный синтез. В ранних исследованиях эмоциональной речи использовался формантный синтезатор, поскольку он предоставлял гибкий и относительно удобный контроль над акустическими параметрами речи [99, 100]. Задачей исследователя было найти просодические правила для каждой категории эмоциональной речи и применить эти правила для синтеза эмоциональной речи из нейтрально синтезированной речи.

В 1989 году Кан разработал первый синтезатор эмоциональной речи с помощью фор-мантного синтеза [99-101], где основные параметры формантного синтезатора настраивались ручным образом для каждой эмоциональной категории. А в 2000 году Бурк-хардт [102] с помощью формантного синтеза определил основные акустические параметры речи для различных эмоциональных категорий. Целью исследования Буркхард-та было выявить акустические характеристики, влияющие на эмоциональное восприятие, путем изменений акустических параметров нейтрально выраженных высказываний. Согласно его экспериментам, при формантном синтезе эмоциональной речи определяющее значение имеют следующие параметры: основной тон, его среднее значение и диапазон изменения, скорость речи, фонация, точность определения гласных.

Поэтому вполне ожидаемо, что первые эмоционально экспрессивные системы синтеза речи были созданы на основе формантного синтезатора DECTalk [103].

Конкатенации дифонов. Естественно было ожидать, что эмоциональная речь, синтезированная путем конкатенации дифонов и изменений частоты и длительности полученного акустического сигнала с помощью алгоритма PSOLA, будет предпочтительней, чем результат формантного синтеза. Однако эксперименты по конкатенации дифонов, записанных в нейтральном тоне, и изменение их основных акустических параметров согласно выявленным соотношениям для эмоциональной речи с помощью алгоритма PSOLA не дали однозначных результатов [99].

У исследователей пока нет единого мнения о механизме того, как просодические и акустические параметры влияют на ту или иную выразительную речь, поскольку результаты экспериментов показали, что некоторые эмоциональные стили могут быть достигнуты различными комбинациями просодики и голоса [103]. Можно предположить, что существует множество стратегий для комбинаций просодики и голоса для достижения требуемой эмоциональности речи [103,104].

Для формантного и дифонного синтеза эмоциональной речи требовалось явным образом связать эмоциональные стили с акустикой. Параметры, с помощью которых эмоций выражаются, должны были четко указаны, а их влияние на речь должно быть четко описано. Обычно правила основывались на описаниях в специализированных отчетах и литературе, на анализе собственных данных или на каких-либо других исследованиях.

Таким образом, экспрессивный синтез речи, разработанный с помощью формантного синтеза или дифонной конкатенации, является примером систем с явным контролем. Под эту категорию попадают также методы, разработанные для преобразований нейтральной речи в экспрессивную [103].

Корпусный подход. Ещё одним методом синтеза эмоциональной речи является запись всех дифонов с различными голосами одного диктора и последующей их конкатенацией. Такой подход часто называют корпусным. В большинстве случаев для каждой эмоциональной категории речи создаются отдельные корпуса.

Иида и Кэмпбелл [105] создали систему, которая могла синтезировать эмоциональную речь трех категорий: положительную, негативную и нейтральную. Для этого авторы записали три базы данных, состоящие соответственно из записей в положительном, нейтральном и негативном тоне. Используя алгоритм Unit Selection, они синтезировали речь в тоне той базы данных, из которой она было собрана. Джонсон и другие [106] использовали похожий подход для синтеза военной речи. Их база данных состояла из военных команд и военных речей в разной тональности. По той же технологии Питрелли и другие [107] записали базы данных для плохих и хороших новостей.

Для корпусного подхода можно выделить пять связанных между собой основных методов воспроизведения и контроля различных эмоциональных выражений и стилей разговора: моделирование, адаптация, интерполяция, контроль и оценка стиля. Моделирование стиля — это методика моделирования и генерирования определенного стиля с соответствующим корпусом для обучения. Адаптация стиля уменьшает стоимость подготовки данных, используя модель адаптации из нейтрального стиля. Промежуточные экспрессивные стили могут быть сгенерированы с помощью интерполяции двух и более стилей. Контроль стиля позволяет интуитивно управлять мерой выразительности стиля синтезированной речи. И наоборот, интенсивность стиля речи оценивается с помощью анализа обратного процесса контроля стиля.

Преимущества корпусного подхода в естественности синтезируемой экспрессивной речи. Однако сложность такого подхода — в дороговизне создания множества речевых корпусов для каждого стиля, кроме того, при таком подходе иногда трудно интерполировать стили, например, для извиняющегося вопроса.

Комбинированная. В 2004 году Хамза и другие [108] предложили комбинированную систему синтеза экспрессивной речи, которая включала в себя корпусный подход и подход, основанный на правилах. В своей статье такую технологию, основанную на правилах, они назвали просодико-фонологическим подходом.

В просодико-фонологическом подходе сначала на одном большом корпусе статистически моделируются акустические параметры. Затем создается словарь экспрессивных стилей, где каждый стиль соотносится с правилами последовательностей просодических разметок, полученных из небольших корпусов.

По их утверждению, некоторые экспрессивные стили больше поддаются корпусному подходу, чем просодическому фонологическому подходу. Например, передача информация в стиле «хороших новостей» лучше реализовывалась корпусным подходом из-за его сложного и системного воздействия на речевой сигнал, тогда как «акцент (эмфазис)» более подходил к просодико-фонологическому подходу из-за своего более простого, локализованного проявления. Соответственно, корпусный подход использовался для синтеза хороших новостей, плохих новостей, вопросов, в то время как просодико-фонологический подход использовался для контрастного акцента (контрастной эмфазы).

Несмотря на то, что просодико-фонологический подход в основном решает проблемы корпусного подхода, он также имеет уязвимые места. А именно: сложности в оптимизации правил, написанных от руки, и необходимость большой работы по просодической разметке корпуса. Зато в рамках такого подхода добавление нового стиля требует внесения небольших дополнений к правилам стилей просодической разметки, а не добавления целиком нового корпуса.

Больше данных. Аудиокниги. Поскольку создание корпусов требует больших затрат финансовых и временных, ученые начали интенсивно исследовать возможность использования аудиокниг [109-112] как возможный источник эмоциональных высказываний для подготовки обучающих данных.

Методы сбора акустических параметров для различных категорий эмоций и стилей речи в аудиокнигах часто основываются на обработке текстовой информации самих аудиокниг. Основная идея заключается в использовании текстовых описаний различных ролей и стилей их подачи. Соответственно, появляется возможность по тексту разметить аудио сигнал по характеру и стилю речи.

Например, высказывание в скобках как

Он радостно произнёс: «Как раз вовремя!!! Мы с Саней не зря готовились!» будет соответственно размечено в радостном тоне согласно ключевым словам «радостно» и «произнёс». Как следствие аудиозапись этого отрезка будет проецироваться в радостную эмоциональную категорию соответствующего автора. Главные и основные требования такого метода — это наличие аудиокниг, записанных эмоционально экспрессивными дикторами, и многочисленное присутствие различных стилей речи.

Сикей и другие [113] предложили метод проекций акустических параметров к различным эмоциональным категориям речи, применяя для этих целей аудиокниги. Для этого были использованы самоорганизующиеся карты Кохонена и алгоритм кластеризации fc-средних для кластеризации акустических параметров. Следуя этой работе, Флори-ан Эйбен и другие [113] построили систему синтеза экспрессивной речи на основе СММ, показав, что системы такого рода могут хорошо отображать человекоподобную экспрессию.

Список литературы

1. Juang B. H., Rabiner L. R. Automatic Speech Recognition — A Brief History of the Technology Development // UC Santa Barbara. 2004. URL: http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/ Reprints/354_LALI-ASRHistory-final-10-8.pdf. (Дата обращения: 15.01.2019).

2. Kratzenstein C. G. Sur la naissance de la formation des voyelles // Journal de physique. 1782. Vol. 21. P. 358-380.

3. Dudley H., Tarnoczy T. H. The speaking machine of Wolfgang von Kempelen // The Journal of the Acoustical Society of America. 1950. Vol. 22. №. 2. P. 151-166.

4. Wheatstone C. The Scientific Papers of Sir Charles Wheatstone. The Physical Society of London, 1879.

5. Jones M.J., Knight R. A. The Bloomsbury companion to phonetics. A&C Black, 2013.

6. Соломенник А. И. Технология синтеза речи в историко-методологическом аспекте // Речевые технологии. 2013. № 1. С. 42-57.

7. Von Helmholtz H., Ellis A. J. On the Sensations of Tone as a Physiological Basis for the Theory of Music. London: Longmans, Green and Company, 1875. P. 576.

8. Fletcher H. The nature of speech and its interpretation // The Bell System Technical Journal. 1922. Vol. 1. № 1. P. 129-144.

9. Dudley H. The Vocoder // Bell Labs Record. 1939. Vol. 17. P. 122-126.

10. Dudley H., Riesz R. R., Watkins S. S. A. A synthetic speaker // Journal of the Franklin Institute. 1939. Vol. 227. № 6. P. 739-764.

11. HoffmannR., BirkholzP., Gabriel F., Jackel R. From Kratzenstein to the Soviet Vocoder: Some Results of a Historic Research Project in Speech Technology // International Conference on Speech and Computer. Springer, Cham, 2018. P. 215-225. doi: 10.1007/978-3-319-99579-3_23

12. HoffmannR. Zur Entwicklung des Vocoders in Deutschland // Jahrestagung fur Akustik, DAGA. 2011. P. 149-150.

13. Hoffmann R., Gramm G. The Sennheiser vocoder goes digital: On a German R&D project in the 1970s // 2nd Inernational. Workshop on the History of Speech Communication Research (HSCR 2017). TUDpress 2017, 2017. P. 35-44.

14. Солженицын А. И. В круге первом. М.: ИНКОМ НВ. 1991.

15. Schroeder M. R. Computer speech: recognition, compression, synthesis. Springer Science & Business Media, 2013. Vol. 35.

16. Tompkins D. How to wreck a nice beach: The vocoder from World War II to hip-hop, The machine speaks. Melville House. 2011. doi: 10.12801/1947-5403.2012.04.02.04

17. Котельников В. А. Судьба, охватившая век. Том 2: Н. В. Котельникова об отце. М.: Физматлит, 2011.

18. Калачев, К. Ф. В круге третьем. Воспоминания и размышления о работе Марфинской лаборатории в 1948-1951 годах. М., 1999.

19. Schroeder M. R., David E. E. A vocoder for transmitting 10 kc/s speech over a 3.5 kc/s channel // Acta Acustica united with Acustica. 1960. Vol. 10. № 1. P. 35-43.

20. Munson W. A., Montgomery H. C. A speech analyzer and synthesizer // The Journal of the Acoustical Society of America. 1950. Vol. 22. № 5. P. 678-678.

21. Сапожков М. А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.

22. Koenig W., Dunn H. K., Lacy L. Y. The sound spectrograph // The Journal of the Acoustical Society of America. 1946. Vol. 18. № 1. P. 19-49.

23. Cooper F. S., Liberman A. M., Borst J. M. The interconversion of audible and visible patterns as a basis for research in the perception of speech // Proceedings of the National Academy of Sciences of the United States of America. 1951. Vol. 37. № 5. P. 318.

24. Young R. W. Review of U.S. Patent 2,432,321, Translation of Visual Symbols, R. K. Potter, assignor (9 December 1947) // The Journal of the Acoustical Society of America. Vol. 20. P. 888-889. doi: 10.1121/1.1906454

25. SproatR. W., Olive J. P. Text-to-Speech Synthesis // AT&T Technical Journal. 1995. Vol. 74. № 2. P. 3544.

26. Klatt D. H. Review of text-to-speech conversion for English // The Journal of the Acoustical Society of America. 1987. Vol. 82. № 3. P. 737-793.

27. Goldsmith J., Laks B. Generative phonology: its origins, its principles, and its successors. 2016.

28. Mullennix J. Computer Synthesized Speech Technologies: Tools for Aiding Impairment: Tools for Aiding Impairment. IGI Global, 2010.

29. Suendermann D., Hoge H., Black A. Challenges in speech synthesis // Speech Technology. Springer, Boston, 2010. P. 19-32.

30. StorkD. G. HAL's Legacy: 2001's Computer as Dream and Reality. Mit Press, 1997.

31. Black A. W., Lenzo K. A. Building synthetic voices // Language Technologies Institute, Carnegie Mellon University and Cepstral LLC. 2003. Vol. 4. № 2. P. 62.

32. Лобанов Б. М., Цирульник Л. И. Компьютерный синтез и клонирование речи // Минск: Белорусская Наука, 2008. 342 c.

33. Charpentier F., Stella M. Diphone synthesis using an overlap-add technique for speech waveforms concatenation // ICASSP'86. IEEE International Conference on Acoustics, Speech, and Signal Processing. IEEE, 1986. Vol. 11. P. 2015-2018. doi: 10.1109/ICASSP.1986.1168657

34. Taylor P. Text-to-speech synthesis. Cambridge university press, 2009.

35. Campbell N., Black A. W. Prosody and the selection of source units for concatenative synthesis // Progress in speech synthesis. Springer, NY, 1997. P. 279-292.

36. Sagisaka Y., Kaiki N., Iwahashi N., Mimura K. ATR jU-Talk Speech Synthesis System // Second International Conference on Spoken Language Processing. 1992.

37. Hunt A. J., Black A. W. Unit selection in a concatenative speech synthesis system using a large speech database // 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. IEEE, 1996. Vol. 1. P. 373-376.

38. Ostendorf M., Bulyko I. The impact of speech recognition on speech synthesis // Proceedings of 2002 IEEE Workshop on Speech Synthesis, 2002. IEEE, 2002. P. 99-106.

39. Hirschberg J. Pitch accent in context predicting intonational prominence from text // Artificial Intelligence. 1993. Vol. 63. № 1-2. P. 305-340.

40. Wang M. Q., Hirschberg J. Automatic classification of intonational phrase boundaries // Computer Speech & Language. 1992. Vol. 6. № 2. P. 175-196.

41. Ross K., OstendorfM. Prediction of abstract prosodic labels for speech synthesis // Computer Speech & Language. 1996. Vol. 10. № 3. P. 155-185.

42. Taylor P., Black A. W. Assigning phrase breaks from part-of-speech sequences // Computer Speech & Language. 1998. Vol. 12. № 2. P. 99-117.

43. Fordyce C. S., Ostendorf M. Prosody prediction for speech synthesis using transformational rule-based learning // Fifth International Conference on Spoken Language Processing. 1998.

44. Silverman K. E. A. On customizing prosody in speech synthesis: Names and addresses as a case in point // Proceedings of the workshop on Human Language Technology. Association for Computational Linguistics, 1993. P. 317-322.

45. Narendranath M., Murthy H. A., Rajendran S., Yegnanarayana B. Transformation of formants for voice conversion using artificial neural networks // Speech communication. 1995. Vol. 16. № 2. P. 207-216.

46. Watanabe T., Murakami T., Namba M., Hoya T., Ishida Y. Transformation of spectral envelope for voice conversion based on radial basis function networks // Seventh International Conference on Spoken Language Processing. 2002.

47. Karaali O. Speech synthesis with neural networks // Proceedings of the 1996 World Congress on Neural Networks. 1996. P. 45-50.

48. Zen H., Senior A., Schuster M. Statistical parametric speech synthesis using deep neural networks // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013. P. 79627966. doi: 10.1109/ICASSP.2013.6639215

49. Donovan R. E., Woodland P. C. Improvements in an HMM-based speech synthesizer // Fourth European Conference on Speech Communication and Technology. 1995.

50. Campbell N., Black A. W. Prosody and the selection of source units for concatenative synthesis // Progress in speech synthesis. Springer, NY, 1997. P. 279-292. doi: 10.1007/978-1-4612-1894-4_22

51. Jiang Y., ZhouX., Ding C., Hu Y. J., LingZ. H., Dai L. R. The USTC system for Blizzard Challenge 2018 // Blizzard Challenge Workshop. 2018.

52. Yoshimura T., TokudaK., Masuko T., Kobayashi T., Kitamura T. Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis // Sixth European Conference on Speech Communication and Technology. 1999.

53. Ling Z. H., Wang R. H. HMM-based unit selection using frame sized speech segments // Ninth International Conference on Spoken Language Processing. 2006.

54. Black A. W. CLUSTERGEN: A statistical parametric synthesizer using trajectory modeling // Ninth International Conference on Spoken Language Processing. 2006.

55. Zen H., Toda T., Nakamura M., Tokuda T. Details of the Nitech HMM-based speech synthesis system for the Blizzard Challenge 2005 // IEICE transactions on information and systems. 2007. Vol. 90. № 1. P. 325-333.

56. Tokuda K., Yoshimura T., Masuko T., Kobayashi T., Kitamura T. Speech parameter generation algorithms for HMM-based speech synthesis // 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 00CH37100). IEEE, 2000. Vol. 3. P. 1315-1318. doi: 10.1109/ICASSP.2000.861820

57. Tamura M., Masuko T., Tokuda K., Kobayashi T. Adaptation of pitch and spectrum for HMM-based speech synthesis using MLLR// 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. IEEE, 2001. Vol. 2. P. 805-808. doi: 10.1109/ICASSP.2001.941037

58. Yoshimura T., TokudaK., Masuko T., Kobayashi T., Kitamura T. Speaker interpolation in HMM-based speech synthesis system // 5th European Conference on Speech Communication and Technology. 1997.

59. Shichiri K., Sawabe A., Tokuda K., Masuko T., Kobayashi T., Kitamura T. Eigenvoices for HMM-based speech synthesis//Seventh International Conference on Spoken Language Processing. 2002. P. 12691272.

60. Nose T., Yamagishi J., Masuko T., Kobayashi T. A style control technique for HMM-based expressive speech synthesis // IEICE TRANSACTIONS on Information and Systems. 2007. Vol. 90. № 9. P. 14061413.

61. Morioka Y., Kataoka S., Zen H., Nankaku Y., Tokuda K., Kitamura T. Miniaturization of HMM-based speech synthesis // Autumn Meeting of ASJ. 2004. P. 325-326.

62. Kim S. J., Kim J. J., Hahn M. HMM-based Korean speech synthesis system for hand-held devices // IEEE Transactions on Consumer Electronics. 2006. Vol. 52. № 4. P. 1384-1390. doi: 10.1109/ TCE.2006.273160

63. Gutkin A., Gonzalvo X., Breuer S., Taylor P. Quantized HMMs for low footprint text-to-speech synthesis // Eleventh Annual Conference of the International Speech Communication Association. 2010. P. 837-840.

64. Yamagishi J., Nose T., Zen H., Ling Z.-H., Toda T., Tokuda K., King S., Renais S. Robust speaker-adaptive HMM-based text-to-speech synthesis // IEEE Transactions on Audio, Speech, and Language Processing. 2009. Vol. 17. № 6. P. 1208-1230. doi: 10.1109/TASL.2009.2016394

65. Tachibana M., Izawa S., Nose T., Kobayashi T. Speaker and style adaptation using average voice model for style control in HMM-based speech synthesis // 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2008. P. 4633-4636. doi: 10.1109/ICASSP.2008.4518689

66. Nose T., Tachibana M., Kobayashi T. HMM-based style control for expressive speech synthesis with arbitrary speaker's voice using model adaptation // IEICE Transactions on Information and Systems. 2009. Vol. 92. № 3. P. 489-497. doi: 10.1587/transinf.E92.D.489

67. Zen H., Tokuda K., Black A. W. Statistical parametric speech synthesis // Speech communication. 2009. Vol. 51. № 11. P. 1039-1064. doi: 10.1016/j.specom.2009.04.004

68. Ling Z.-H., Kang S.-Y., Zen H., Senior A., Schuster M., Qian X.-J., Meng H., Deng L. Deep learning for acoustic modeling in parametric speech generation: A systematic review of existing techniques and future trends // IEEE Signal Processing Magazine. 2015. Vol. 32. № 3. P. 35-52. doi: 10.1109/MSP.2014.2359987

69. Dean J. et al. Large scale distributed deep networks // Advances in neural information processing systems. 2012. P. 1223-1231.

70. Yu D., Deng L., Dahl G. Roles of pre-training and fine-tuning in context-dependent DBN-HMMs for real-world speech recognition // Proc. NIPS Workshop on Deep Learning and Unsupervised Feature Learning. 2010.

71. Dahl G., Yu D., Deng L., Acero A. Large vocabulary continuous speech recognition with context-dependent DBN-HMMS // ICASSP. 2011. P. 4688-4691.

72. Dahl G., Yu D., Deng L., Acero A. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition //IEEE Transactions on audio, speech, and language processing. 2012. Vol. 20. № 1. P. 30-42. doi: 10.1109/TASL.2011.2134090

73. Mohamed A., Dahl G. E., Hinton G. Acoustic modeling using deep belief networks // IEEE Transactions on Audio, Speech, and Language Processing. 2012. Vol. 20. № 1. P. 14-22. doi: 10.1109/TASL.2011.2109382

74. Sainath T. N., Kingsbury B., Soltau H., Ramabhadran B. Optimization techniques to improve training speed of deep neural networks for large speech tasks // IEEE Transactions on Audio, Speech, and Language Processing. 2013. Vol. 21. № 11. P. 2267-2276. doi: 10.1109/TASL.2013.2284378

75. Deng L., Seltzer M. L., Yu. D., Acero A., Mohamed A. R., Hinton G. Binary coding of speech spectrograms using a deep auto-encoder // Eleventh Annual Conference of the International Speech Communication Association. 2010. P. 1692-1695.

76. ZhangX. L., Wu J. Deep belief networks based voice activity detection // IEEE Transactions on Audio, Speech, and Language Processing. 2013. Vol. 21. № 4. P. 697-710.

77. Ling Z. H., Deng L., Yu. D. Modeling spectral envelopes using restricted Boltzmann machines for statistical parametric speech synthesis // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013. P. 7825-7829. doi: 10.1109/ICASSP.2013.6639187

78. Ling Z. H., Deng L., Yu. D. Modeling spectral envelopes using restricted Boltzmann machines and deep belief networks for statistical parametric speech synthesis // IEEE transactions on audio, speech, and language processing. 2013. Vol. 21. № 10. P. 2129-2139. doi: 10.1109/TASL.2013.2269291

79. Kang S., Qian X., Meng H. Multi-distribution deep belief network for speech synthesis // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013. P. 8012-8016. doi: 10.1109/ICASSP.2013.6639225

80. Fernandez R., RendelA., Ramabhadran B., HooryR. F0 contour prediction with a deep belief network-Gaussian process hybrid model // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013. P. 6885-6889. doi: 10.1109/ICASSP.2013.6638996

81. Lu H., King S., Watts O. Combining a vector space representation of linguistic context with a deep neural network for text-to-speech synthesis / /Eighth ISCA Workshop on Speech Synthesis. 2013.

82. Chen L.-H., Ling Z.H., Song Y., Dai L. R. Joint spectral distribution modeling using restricted boltzmann machines for voice conversion // Interspeech. 2013. P. 3052-3056.

83. Nakashika T., Takashima R., Takiguchi T., Ariki Y. Voice conversion in high-order eigen space using deep belief nets//Interspeech. 2013. P. 369-372.

84. Wu Z., Chng E. S., Li H. Conditional restricted boltzmann machine for voice conversion // 2013 IEEE China Summit and International Conference on Signal and Information Processing. IEEE, 2013. P. 104-108. doi: 10.1109/ChinaSIP.2013.6625307

85. Lu X., Tsao Y., Matsuda S., Hori C. Speech enhancement based on deep denoising autoencoder // Interspeech. 2013. P. 436-440.

86. Xia B., Bao C. Speech enhancement with weighted denoising auto-encoder // INTERSPEECH. 2013. P. 3444-3448.

87. Xu Y., Du J., Dai L. R., Lee C. H. An experimental study on speech enhancement based on deep neural networks//IEEE Signal processing letters. 2014. Vol. 21. № 1. P. 65-68. doi: 10.1109/LSP.2013.2291240

88. Zen H., Sak H. Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis // 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015. P. 4470-4474. doi: 10.1109/ICASSP.2015.7178816

89. ZenH., Agiomyrgiannakis Y., EgbertsN., HendersonF., SzczepaniakP. Fast, compact, and high quality LSTM-RNN based statistical parametric speech synthesizers for mobile devices // arXiv preprint arXiv:1606.06061. 2016.

90. Saito Y., Takamichi S., Saruwatari H. Statistical parametric speech synthesis incorporating generative adversarial networks // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2018. Vol. 26. № 1. P. 84-96. doi: 10.1109/TASLP.2017.2761547

91. Bollepalli B., Juvela L., Alku P. Generative adversarial network-based glottal waveform model for statistical parametric speech synthesis//Interspeech. 2017. P. 3394-3398.

92. Liu B., Nie S., Zhang Y., Ke D., Liang S., Liu W. Boosting noise robustness of acoustic model via deep adversarial training // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018. P. 5034-5038. doi: 10.1109/ICASSP.2018.8462093

93. Han J., Zhang Z., Ren Z., Ringeval F., Schuller B. Towards conditional adversarial training for predicting emotions from speech // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018. P. 6822-6826. doi: 10.1109/ICASSP.2018.8462579

94. VanDen OordA. et al. WaveNet: A generative model for raw audio // SSW. 2016. Vol. 125.

95. Arik S. O. et al. Deep voice: Real-time neural text-to-speech // Proceedings of the 34th International Conference on Machine Learning. JMLR, 2017. P. 195-204.

96. Wang Y. et al. Tacotron: Towards end-to-end speech synthesis // arXiv preprint arXiv:1703.10135. 2017.

97. Shen J. et al. Natural tts synthesis by conditioning WaveNet on mel spectrogram predictions // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018. P. 4779-4783. doi: 10.1109/ICASSP.2018.8461368

98. Yasuda Y., Wang X., Takaki S., Yamagishi J. Investigation of enhanced Tacotron text-to-speech synthesis systems with self-attention for pitch accent language // ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019. P. 69056909.

99. Schröder M. Emotional speech synthesis: A review // Seventh European Conference on Speech Communication and Technology. 2001. P. 561-564.

100. GovindD., Prasanna S. R. M. Expressive speech synthesis: a review // International Journal of Speech Technology. 2013. Vol. 16. № 2. P. 237-260.

101. Cahn J. E. The generation of affect in synthesized speech // Journal of the American Voice I/O Society. 1989. Vol. 8. № 1. P. 1-19.

102. Burkhardt F., Sendlmeier W. F. Verification of acoustical correlates of emotional speech using formant-synthesis // ISCA Tutorial and Research Workshop (ITRW) on speech and emotion. 2000.

103. Schroöder M. Expressive speech synthesis: Past, present, and possible futures // Affective information processing. Springer, London, 2009. P. 111-126. doi: 10.1007/978-1-84800-306-4_7

104. Schroder M. Can emotions be synthesized without controlling voice quality // Phonus. 1999. Vol. 4. P. 35-50.

105. Iida A., Campbell N. Speech database design for a concatenative text-to-speech synthesis system for individuals with communication disorders //International Journal of Speech Technology. 2003. Vol. 6. № 4. P. 379-392. doi: 10.1023/A:1025761017833

106. Johnson W. L., Narayanan S. S., Whitney R., Das R., Bulut M., LaBore C. Limited domain synthesis of expressive military speech for animated characters // Proceedings of 2002 IEEE Workshop on Speech Synthesis, 2002. IEEE, 2002. P. 163-166. doi: 10.1109/WSS.2002.1224399

107. Pitrelli J. F., Bakis R., Eide E. M., Fernandez R., Hamza W., Picheny M. A. The IBM expressive text-to-speech synthesis system for American English // IEEE Transactions on Audio, Speech, and Language Processing. 2006. Vol. 14. № 4. P. 1099-1108. doi: 10.1109/TASL.2006.876123

108. Hamza W., Eide E., Bakis R., Picheny M., Pitrelli J. The IBM expressive speech synthesis system // Eighth International Conference on Spoken Language Processing. 2004.

109. Zhao Y., Peng D., Wang L., Chu M., Chen Y., Yu P., Guo J. Constructing stylistic synthesis databases from audio books // Ninth International Conference on Spoken Language Processing. 2006.

110. Prahallad K., Toth A. R., Black A. W. Automatic building of synthetic voices from large multi-paragraph speech databases // Eighth Annual Conference of the International Speech Communication Association. 2007.

111. Braunschweiler N., Gales M. J. F., Buchholz S. Lightly supervised recognition for automatic alignment of large coherent speech recordings // Eleventh Annual Conference of the International Speech Communication Association. 2010.

112. Eyben F., Buchholz S., Braunschweiler N., Latorre J., Wan V., Gales M. J., Knill, K. Unsupervised clustering of emotion and voice styles for expressive TTS // 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2012. P. 4009-4012. doi: 10.1109/ICASSP.2012.6288797

113. Szekely E., Cabral J. P., Cahill P., Carson-Berndsen J. Clustering expressive speech styles in audiobooks using glottal source parameters // Twelfth Annual Conference of the International Speech Communication Association. 2011. P. 2409-2412.

Поступила в редакцию 15.01.2019, окончательный вариант — 21.02.2019.

Computer tools in education, 2019 № 1: 5-28

http://ipo.spb.ru/journal doi:10.32603/2071-2340-2019-1-5-28

Speech Synthesis: Past and Present

Kaliev A.1, postgraduate student, kaliyev.arman@yandex.kz Rybin S. V.1, associate professor, svrybin@itmo.ru

1ITMO University, 49, Kronverksky pr., 197101, Saint-Petersburg, Russia

Abstract

The article describes the development of the speech synthesis methods from the beginnings to the present. The main approaches that have played an important role in the development of the speech synthesis, as well as modern advanced methods are considered. The extensive bibliography on this issue is also given.

Keywords: synthesis of intonation speech, speech signals, emotional speech, Unit Selection, deep neural networks, prosodics, acoustic parameters.

Citation: A. Kaliev and S. V. Rybin, "Speech Synthesis: Past and Present," Computer tools in education, no. 1, pp. 5-28, 2019 (in Russian); doi:10.32603/2071-2340-2019-1-5-28

References

1. B.-H. Juang and L. Rabiner, "Automatic Speech Recognition — A Brief History of the Technology Development," UC Santa Barbara, 2004. [Online]. Available: http://www.ece.ucsb.edu/Faculty/ Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf

2. C. G. Kratzenstein, "Sur la raissance de la formation des voyelles," J. Phys., vol. 21, pp. 358-380, 1782.

3. H. Dudley and T. H. Tarnoczy, "The Speaking Machine of Wolfgang von Kempelen," J. Acoust. Soc. Am., vol. 22, pp. 151-166, 1950.

4. C. Wheatstone, The Scientific Papers of Sir Charles Wheatstone, London: The Physical Society of London, 1879.

5. M. J. Jones and R.-A. Knight, eds., The Bloomsbury companion to phonetics, London: A&C Black, 2013.

6. A. I. Solomennik, "Tekhnologiya sinteza rechi v istoriko-metodologicheskom aspekte" [Technology speech synthesis in the historical and methodological aspect], Speech Technology, no. 1, pp. 42-57, 2013 (in Russian).

7. H. Von Helmholtz and A. J. Ellis, On the Sensations of Tone as a Physiological Basis for the Theory of Music, London: Longmans, Green and Company, 1875. p. 576.

8. H. Fletcher, "The nature of speech and its interpretation," The Bell System Technical Journal, vol. 1, no. 1,pp. 129-144,1922.

9. H. Dudley, "The Vocoder," Bell Labs Record, vol. 17, pp. 122-126,1939.

10. H. Dudley, R. R. Riesz, and S. A. Watkins, "A Synthetic Speaker," J. Franklin Institute, vol. 227, pp. 739764, 1939.

11. R. Hoffmann, P. Birkholz, F. Gabriel, and R. Jackel, "From Kratzenstein to the Soviet Vocoder: Some Results of a Historic Research Project in Speech Technology," in International Conference on Speech and Computer. (SPECOM 2018), Springer, Cham, 2018. pp. 215-225. doi: 10.1007/978-3-319-99579-3_23.

12. R. Hoffmann, "Zur Entwicklung des Vocoders in Deutschland," Jahrestagung fur Akustik, DAGA, pp. 149-150, 2011.

13. R. Hoffmann and G. Gramm, "The Sennheiser vocoder goes digital: On a German R&D project in the 1970s," in 2nd Inernational Workshop on the History of Speech Communication Research (HSCR 2017), 2017. pp. 35-44.

14. A. Solzhenitsyn, The First Circle, Moscow: INCOM NV, 1991.

15. M. R. Schroeder, Computer speech recognition, compression, synthesis, Springer Science & Business Media, vol. 35, 2013.

16. D. Tompkins, How to wreck a nice beach: The vocoder from World War II to hip-hop, The machine speak, Melville House, 2011; doi: 10.12801/1947-5403.2012.04.02.04

17. "N. V. Kotel'nikova ob ottse" [N. V. Kotelnikov about father], inKotelnikov, Sud'ba, okhvativshaya vek, N. V. Kotel'nikova and A. S. Prohorov, eds., vol. 2, Moscow: Phizmatlit, 2011 (in Russian).

18. K. F. Kolachev, V kruge tret'em. Vospominaniya i razmyshleniya o rabote Marfinskoi laboratorii v 1948-1951 godakh [In the third circle. Memoirs and Reflections on the Work of the Martha Laboratory in 1948-1951], Moscow, 1999 (in Russian).

19. M. R. Schroeder and E. E. David, "A vocoder for transmitting 10 kc/s speech over a 3.5 kc/s channel," ActaAcustica united with Acustica, vol. 10, no. 1, pp. 35-43,1960.

20. W. A. Munson and H. C. Montgomery, "A speech analyzer and synthesizer," The Journal of the Acoustical Society of America, vol. 22, no. 5, pp. 678-678,1950.

21. M. A. Sapozhkov, Rechevoi signal v kibernetike i svyazi [Speech signal in cybernetics and communication], Moscow: Svyaz'izdat, 1963.

22. W. Koenig, H. K. Dunn, and L. Y. Lacy, "The sound spectrograph," The Journal of the Acoustical Society ofAmerica, vol. 18. no. 1, pp. 19-49, 1946.

23. F. S. Cooper, A. M. Liberman, and J. M. Borst, "The interconversion of audible and visible patterns as a basis for research in the perception of speech," Proceedings of the National Academy of Sciences of the United States of America, vol. 37, no. 5, p. 318,1951.

24. R. W. Young, "Review of U.S. Patent 2,432,321, Translation of Visual Symbols, R. K. Potter, assignor (9 December 1947)," The Journal of the Acoustical Society of America, vol. 20, no. 6, pp. 888-889,1948; doi: 10.1121/1.1906454

25. R. W. Sproat and J. P. Olive, "Text-to-Speech Synthesis," AT&T Technical Journal, vol. 74, no. 2, pp. 3544, 1995.

26. D. H. Klatt, "Review of text-to-speech conversion for English," The Journal of the Acoustical Society ofAmerica, vol. 82, no. 3, pp. 737-793, 1987.

27. J. Goldsmith and B. Laks, "Generative phonology: its origins, its principles, and its successors," The Cambridge History of Linguistics, Cambridge: Cambridge University Press, 2011.

28. J. Mullennix, Computer Synthesized Speech Technologies: Tools for Aiding Impairment, IGI Global, 2010.

29. D. Suendermann, H. Hoge, and A. Black, "Challenges in speech synthesis," Speech Technology, Boston: Springer, pp. 19-32, 2010.

30. D. G. Stork, HAL's Legacy: 2001 's Computer as Dream and Reality, Mit Press, 1997.

31. A. W. Black and K. A. Lenzo, "Building synthetic voices," Language Technologies Institute, Carnegie Mellon University and CepstralLLC., vol. 4, no. 2, p. 62, 2003.

32. B. M. Lobanov and L. I. Tsirul'nik, Kompyuternyi sintez i klonirovanie rechi [Computer synthesis and speech cloning], Minsk: Belarusian Science, 2008.

33. F. Charpentier and M. Stella, "Diphone synthesis using an overlap-add technique for speech waveforms concatenation," in ICASSP '86. IEEE International Conference on Acoustics, Speech, and Signal Processing, Tokyo, Japan, 1986, pp. 2015-2018; doi: 10.1109/ICASSP.1986.1168657

34. P. Taylor, Text-to-speech synthesis, Cambridge university press, 2009.

35. N. Campbell and A. W. Black, "Prosody and the selection of source units for concatenative synthesis," Progress in speech synthesis, New York: Springer, pp. 279-292,1997.

36. Y. Sagisaka, N. Kaiki, N. Iwahashi, and K. Mimura, "ATR v-Talk Speech Synthesis System," Proc. ICSLP, pp. 483-486, 1992.

37. A. Hunt and A. Black, "Unit selection in a concatenative speech synthesis system using large speech database," in Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, 1996, pp. 373—376.

38. M. Ostendorf and I. Bulyko, "The impact of speech recognition on speech synthesis", in Proc, IEEE Workshop Speech Synthesis, Santa Monica, 2002, pp. 99-106.

39. J. Hirschberg, "Pitch accent in context predicting intonational prominence from text," Artificial Intelligence, vol. 63, no. 1-2, pp. 305-340, 1993.

40. M. Q. Wang and J. Hirschberg, "Automatic classification of intonational phrase boundaries," Computer Speech & Language, vol. 6, no. 2, pp. 175-196,1992.

41. K. Ross and M. Ostendorf, "Prediction of abstract prosodic labels for speech synthesis," Computer Speech & Language, vol. 10, no. 3, pp. 155-185, 1996.

42. P. Taylor and A. W. Black, "Assigning phrase breaks from part-of-speech sequences," Computer Speech & Language, vol. 12, no. 2, pp. 99-117,1998.

43. C. S. Fordyce and M. Ostendorf, "Prosody prediction for speech synthesis using transformational rule-based learning," in Proc. 5th Int. Conf. on Spoken Language Processing, (ICSLP), Sydney, Australia, 1998.

44. K. E. A. Silverman, "On customizing prosody in speech synthesis: Names and addresses as a case in point," in Proc. of the workshop on Human Language Technology. Association for Computational Linguistics, 1993, pp. 317-322.

45. M. Narendranath, H. A. Murthy, S. Rajendran, and B. Yegnanarayana, "Transformation of formants for voice conversion using artificial neural networks," Speech communication, vol. 16, no. 2, pp. 207216, 1995.

46. T. Watanabe, T. Murakami, M. Namba, T. Hoya, and Y. Ishida, "Transformation of spectral envelope for voice conversion based on radial basis function networks," in Proc. 7th International Conference on Spoken Language Processing(ICSLP), Denver, USA, 2002.

47. O. Karaali, "Speech synthesis with neural networks," in Proc. of the World Congress on Neural Networks (WCNN'96), San Diego, USA, 1996, pp. 45-50.

48. H. Zen, A. Senior, and M. Schuster, "Statistical parametric speech synthesis using deep neural networks," in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, Canada, 2013, pp. 7962-7966; doi: 10.1109/ICASSP.2013.6639215

49. R. E. Donovan and P. C. Woodland, "Improvements in an HMM-based speech synthesizer," in Proc. 4th European Conf. on Speech Communication and Technology (ESCA), Madrid, Spain, 1995.

50. N. Campbell and A. W. Black, "Prosody and the selection of source units for concatenative synthesis," in Progress in speech synthesis, J. P. H. van Santen, J. P. Olive, R. W. Sproat, J. Hirschberg, eds., New York, NY: Springer, 1997, pp. 279-292; doi: 10.1007/978-1-4612-1894-4_22

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.