Анализ и автоматическая сегментация речевого сигнала тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Цыплихин, Александр Иванович

  • Цыплихин, Александр Иванович
  • кандидат технических науккандидат технических наук
  • 2006, Москва
  • Специальность ВАК РФ05.13.01
  • Количество страниц 149
Цыплихин, Александр Иванович. Анализ и автоматическая сегментация речевого сигнала: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Москва. 2006. 149 с.

Оглавление диссертации кандидат технических наук Цыплихин, Александр Иванович

ВВЕДЕНИЕ.

ГЛАВА 1. Методы анализа и сегментации речи

1.1. Методы сегментации.

1.2. Методы анализа основного тона.

1.3. Методы анализа формантных частот.

1.4. Смеси распределений.

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Анализ и автоматическая сегментация речевого сигнала»

Для решения многих речевых задач требуется проведение предварительной сегментации речи, то есть разделения речевого сигнала на сегменты, соответствующие квазистационарным и переходным процессам речеобразования. Большой практический интерес представляют задачи распознавания речи и верификации диктора, а также так называемая обратная задача для слитной речи, то есть задача восстановления формы речевого тракта и движений артикуляторов по акустическому речевому сигналу. Для решения этих задач необходимо провести анализ речевого сигнала и вычислить его акустические параметры. К таким параметрам относятся: информация о типе источника (голосовой, фрикативный) на данном участке речевого сигнала, о наличии смычки и назализации.

Эта задача может быть сформулирована как задача распознавания кардинальных типов речевых сегментов. Кардинальные типы речевых сегментов - это группы звуков, созданных с использованием существенно различающихся механизмов речеобразования. Рассматривается шесть кардинальных типов: гласноподобные, назальные, фрикативные глухие и звонкие, а также смычные глухие и звонкие звуки речи. Необходимость распознавания кардинальных типов продиктована, в частности, тем, что в обратной задаче для каждого кардинального типа используются свои акустические параметры и свой критерий оптимизации. Для распознавания типов речевых сегментов необходимо предварительно сегментировать речевой сигнал, то есть выполнить поиск моментов времени, в которые происходит существенное изменение свойств сигнала.

К акустическим параметрам также относятся спектрально-временные характеристики сегментов, положения импульсов голосового источника и формантные частоты речевого сигнала, которые в большинстве случаев соответствуют резонансным частотам речевого тракта. Для вычисления этих параметров также требуется предварительная сегментация речевого сигнала и распознавание кардинальных типов сегментов, так как, например, анализ голосовых импульсов и формантных частот следует производить только на огласованных участках сигнала.

Известные по литературе методы поиска границ сегментов обладают значительными недостатками. В частности, эти методы неприемлемы для решения обратной задачи: они либо используют априорную информацию о содержании речевого сигнала, которая обычно недоступна, либо производят поиск границ слишком грубых элементов - слогов, слов, предложений, либо дают слишком большие погрешности. В свою очередь, описанные в литературе методы распознавания типа сегментов также обладают различными недостатками и не позволяют решать реальные речевые задачи: они не обладают достаточной точностью, не выполняют распознавания кардинальных типов речевых сегментов.

В практических речевых задачах требуется определение треков формантных частот в речевом сигнале. Например, при распознавании речи треки резонансных частот дают информацию о месте артикуляции, при голосовой верификации позволяют оценить индивидуальные динамические характеристики голоса диктора, при решении обратной задачи треки используются для восстановления формы речевого тракта по речевому сигналу. В литературе описано большое число методов определения треков формантных частот, однако все они имеют недостатки, что заставляет продолжать исследования в этой области.

Известно, что резонансные частоты речевого тракта необходимо вычислять на тех участках голосовых импульсов, где голосовые связки сомкнуты, так как частоты, вычисленные на интервале открытой щели, испытывают влияние подсвязочной области и могут отличаться от резонансных частот тракта на величину до 20%. Это определяет актуальность исследований в области анализа голосовых импульсов, в частности, определения положений голосовых импульсов на речевом сигнале и оценки частоты основного тона. Описанные в литературе методы оценки частоты основного тона не обладают достаточной точностью и устойчивостью к шумам и искажениям в канале. Кроме того, эти методы не позволяют определять положения голосовых импульсов на сигнале, и, следовательно, выполнять синхронный анализ формантных частот.

Всё это определяет актуальность исследований в области анализа и автоматической сегментации речевого сигнала.

Основная цель исследования заключается в разработке устойчивого метода точной сегментации речевого сигнала и распознавания типов полученных сегментов, вычислении акустических параметров сегментов, а также в разработке методов определения положения импульсов голосового источника и вычисления треков формантных частот.

ВВЕДЕНИЕ

Достижение этой цели предполагает решение следующих задач:

• обзор и систематизация описанных в литературе методов сегментации и распознавания типов сегментов;

• исследование различных сегментирующих функций и создание алгоритма сегментации на их основе;

• исследование и выбор параметров, позволяющих наилучшим образом распознавать типы сегментов;

• оценка качества нахождения границ и распознавания типов сегментов;

• создание и тестирование метода определения положения голосовых импульсов;

• создание и тестирование метода вычисления треков формантных частот.

В качестве методов исследования использовались методы математического анализа, цифровой обработки сигналов, теории речеобразования и восприятия речи, спектрального анализа речи, линейного предсказания, динамического программирования, аппроксимации плотностей многомерных выборок, теории вероятностей, теории оптимизации и оптимального управления. Оценка работоспособности и эффективности разработанных методов осуществлялась путем численных экспериментов с использованием реальных данных.

Материалом исследования послужили пять различных баз речевых данных.

Одна из них была собрана в Институте проблем передачи информации (ИППИ) и содержала образцы речи русскоязычных дикторов общей длительностью около 30 часов, записанные в естественных условиях на микрофоны различных типов. База данных была размечена на фонетико-артикуляторные сегменты опытными лингвистами вручную и использовалась в данной работе для тестирования качества сегментации.

Три другие базы данных содержали ларингографические сигналы, записанные синхронно с фонетически сбалансированными фразами на английском и японском языках, произнесенными дикторами-носителями, общей длительностью примерно 60 минут. Эти базы данных использовались для тестирования метода определения положения голосовых импульсов.

Пятая база данных содержала измерения на микролучевой рентгеноскопической установке и включала в себя образцы речи и артикуляции около полусотни дикторов -носителей американского английского языка.

Научная новизна заключается в установлении признаков, позволяющих распознать тип сегментов речевого сигнала, в разработке алгоритма поиска границ сегментов, основанного на степени изменения кратковременного спектра, а также в создании метода определения положения голосовых импульсов.

Теоретическая значимость диссертации состоит в определении акустических параметров и формировании решающих правил для распознавания переходных процессов и квазистационарных сегментов речевого сигнала. В задаче поиска голосовых импульсов теоретическую значимость представляет применение к различным классам сигналов разных способов анализа: по огибающей и по самому сигналу. В задаче отслеживания формантных треков - сформированный набор ограничений, основанный на свойствах артикуляции, позволяющий выполнять построение треков.

Практическая ценность диссертации. Предложенные методы и алгоритмы показали высокую эффективность при анализе реальных речевых сигналов. Они позволили автоматизировать решение обратной задачи для слитной речи, существенно улучшить характеристики систем распознавания речи и верификации диктора. Результаты работы были использованы при выполнении темы ОКР «Разработка помехоустойчивой системы автоматического распознавания речи», государственный контракт № 2-01-СТ. Часть исследований была выполнена в рамках работы по проекту «Исследование динамических обратных задач для речевого тракта», грант РФФИ № 03-01-00116.

Положения диссертации, выносимые на защиту: разработанные алгоритмы и программное обеспечение, реализующие в реальном времени на современных ПК решение перечисленных ниже фундаментальных речевых проблем, в частности:

1. Алгоритм сегментации речевого сигнала, основанный на свойствах процесса ре-чеобразования, и позволяющий определять границы стационарных и переходных сегментов для распознавания их типов.

2. Метод распознавания шести классических типов сегментов в определенных проведенным исследованием подпространствах спектрально-временных характеристик.

3. Алгоритм оценивания частоты основного тона и положений голосовых импульсов, основанный на свойствах процесса речевосприятия, и используемый для отслеживания треков формантных частот речевого сигнала.

4. Метод отслеживания треков формантных частот речевого сигнала синхронно с интервалами закрытого положения голосовой щели для вычисления значений формант с достаточной точностью, чтобы обеспечить качественное решение обратной задачи и задачи голосовой верификации.

Апробация работы. Основные положения и результаты диссертации докладывались на международном семинаре «Диалог-2002» (Протвино, 2002) и «Диалог-2003» (Протвино, 2003), на 13-й и 16-й сессиях Российского Акустического Общества (Москва, 2003 и 2005), на международной конференции "InterSpeech-2005" (Лиссабон, 2005), а также на постерной сессии международного семинара NATO ASI "Dynamic speech production and perception" (Италия, 2002).

Публикации. По результатам диссертационной работы опубликовано 6 статьей [6 -11] в ведущих научных журналах, а также 5 докладов [1 - 5] на международных конференциях. Все работы, кроме [5], выполнены в соавторстве. В публикациях вклад соискателя состоит в разработке методов и алгоритмов анализа речевого сигнала.

Структура работы. Диссертационная работа состоит из введения, пяти глав, заключения и библиографического списка использованных источников. Она содержит 149 страниц основного текста, 52 рисунка и 22 таблицы, расположенных в тексте диссертации. Список литературы включает 162 наименования.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Цыплихин, Александр Иванович

Заключение

На основании свойств процесса речевосприятия создан алгоритм оценивания частоты основного тона и положений голосовых импульсов. Алгоритм показал устойчивость к нарушениям периодичности колебаний голосовых складок, искажениям в канале и внешним шумам. Сравнение с современными алгоритмами оценки частоты основного тона производилось на материале трёх баз данных, содержащих ларингографические сигналы. Тестирование показало, что по точности алгоритм в среднем в два раза опережает лучший из конкурирующих алгоритмов. Точность определения положений импульсов достаточна для выполнения синхронного анализа речевого сигнала, а скорость обработки сигнала позволяет использовать алгоритм в задачах реального времени.

Предложен алгоритм отслеживания формантных треков синхронно с интервалами закрытой голосовой щели. Алгоритм использует правила и ограничения на форму треков, основанные на свойствах артикуляции. Тестирование показало, что алгоритм позволяет получать устойчивые оценки формантных частот, и работоспособен на голосах с высокой частотой основного тона. Точность вычисления частот достаточна для использования результатов алгоритма при решении обратной задачи.

Исследована эффективность различных групп акустических параметров применительно к распознаванию кардинальных элементов речевого сигнала: гласнопо-добных, назальных, фрикативных глухих и звонких, смычных глухих и звонких звуков речи. Обнаружено, что наибольшая степень разделения достигается при противопоставлении кардинальных типов друг другу попарно. Показана необходимость разработки специальной процедуры выбора подпространств для распознавания.

Установлена возможность использования байесовского подхода для распознавания кардинальных типов сегментов. Показана целесообразность представления решения о типе в виде набора вероятностей принадлежности сегмента к каждому из кардинальных типов, в связи с возможностью коррекции этого решения на последующих этапах (например, при использовании в обратной задаче). Установлена необходимость моделирования плотностей распределений в пространстве акустических параметров по выборке, полученной в результате анализа базы речевых данных.

Рассмотрена задача моделирования плотностей вероятности распределений по имеющейся выборке. Найден минимальный объем выборки, необходимый для построения одномерных и двумерных гистограмм в зависимости от количества отсчетов в них при отсутствии дополнительной информации о виде распределения. Установлено, что требования к объему выборки быстро растут с увеличением размерности и количества отсчетов гистограмм. Это делает невозможным использование гистограмм для моделирования многомерных выборок.

Показано, что в некоторых частных случаях удается найти простой способ аналитического описания плотности вероятности. В качестве примера приведены результаты исследования распределений длительностей сегментов различных типов. Обнаружено, что аналитического описание достаточно хорошо производится произведением одномерных гамма распределений, смещенным в соответствии с линией регрессии.

Описан способ моделирования плотности распределения по выборке в многомерном случае. Для моделирования использовались смеси нормальных распределений. Разработан модифицированный ЕМ-алгоритм для вычисления параметров смесей, позволяющий обойти основные недостатки ЕМ-алгоритма, а именно: адаптивно выбирать оптимальное количество компонент в смеси и одновременно избегать локальных максимумов правдоподобия.

Рассмотрен метод динамической трансформации шкалы времени. Показано, что метод позволяет эффективно использовать дополнительную информацию о сигнале, доступную в некоторых речевых задачах. Исследованы модификации этого метода, повышающие эффективность его работы в рассматриваемых задачах. В частности, установлены наилучшие глобальные и локальные ограничения на путь трансформации; предложен способ штрафования трансформаций, приводящих к сильным растяжениям и сжатиям отдельных участков; установлена целесообразность использования механизма итеративного уточнения.

Предложены алгоритмы сегментации речевого сигнала на квазистационарные и переходные участки на основе корреляции мгновенных спектров, взятых в найденные по сегментирующей функции моменты времени, а также распознавания кардинальных типов речевых сегментов. Их эффективность оценена на материале базы речевых данных русского языка для 47 человек и нескольких типов телефонных трубок и микрофонов с ручной разметкой на 127 типов артикуляторно-акустических сегментов по сигналам с соотношением сигнал-шум от 12 дБ.

При сегментации речевого сигнала выполнялся поиск границ квазистационарных и переходных участков. На имеющейся базе данных алгоритм сегментации определил положения границ со средней погрешностью 4,52 мс, что находится внутри диапазона 5 мс погрешности ручной разметки. Можно сделать вывод, что алгоритм выполняет точную сегментацию по сравнению с ручной разметкой. Было пропущено 0,95% границ, среднее число вставок было равно 1,26 на один сегмент ручной разметки. Показано, что основную часть пропущенных границ составляли слабовы-раженные переходы, и что основные погрешности положений границ и вставки обусловлены объективными свойствами сигналов и субъективностью разметки эталонов.

Распознавание кардинальных типов речевых сегментов производилось в подпространствах акустических параметров, установленных оптимизационной процедурой, реализующей рекуррентное добавление информативных признаков. При тестировании правильный тип в 85% случаев имел наибольшее значение апостериорной вероятности, в 96,3% входил в первую двойку.

Проведено исследование качества решения обратной задачи для слитной речи с использованием предложенных в данной работе алгоритмов первичного анализа речи. Показано, что погрешность определения формы речевого тракта для гласных составила 6%, для фрикативных - 3%, что сопоставимо с погрешностью измерения. Артикуляторный ресинтез показал, что на слух различие между оригинальным и ресинтезированным сигналами ничтожно мало. Это свидетельствует о том, что описанные в работе алгоритмы являются достаточно надежными и точными для использования в решении обратной задачи.

Предложен способ использования вероятностей кардинальных типов в эталонах метода динамической трансформации шкалы времени (DTW).

Рассмотрена система распознавания изолированных цифр русского языка, основанная на модифицированном DTW с использованием вероятностей кардинальных типов (глава 3). Распознавание проводилось независимо от диктора и микрофона. Показано, что при включении в эталоны информации о типе сегмента количество ошибок распознавания слов уменьшилось в 6 раз, с 12% до 2% по сравнению с предыдущей версией распознавателя, основанного только на детекторах артикулятор-ных событий.

Рассмотрена система голосовой верификации по изолированным цифрам. Сегментация на артикуляторно-акустические сегменты выполнялась комбинированным алгоритмом сегментации (модифицированный DTW (глава 3) + вероятности типов (глава 4)). Характерные параметры голоса (частота основного тона, формантные частоты, характерные частоты фрикативных) вычислялись алгоритмами, предложенными в данной работе (глава 2). Установлено, что средняя суммарная ошибка верификации для паролей, состоящих из десяти слов, составила 0.04%. Такая точность на порядок превосходит известные системы верификации и достаточна для практического применения в системах безопасности. Это позволяет сделать вывод о целесообразности контекстно-зависимой верификации личности по голосу, а также о высокой эффективности предложенных алгоритмов.

Список литературы диссертационного исследования кандидат технических наук Цыплихин, Александр Иванович, 2006 год

1. Цыплихин А. К, Леонов А. С., Сорокин В. Н. Двумерные распределения фонетиче-ских сегментов // Труды Международного семинара «Диалог 2002», 2002, Т. 2, С. 484-495.

2. Сорокин В. Н., Цыплихин А. И. Аппроксимация распределений малопредставительных выборок // М.: ГЕОС, Сборник трудов XIII сессии Российского акустического общества, 2003, Т. 3, С. 95-100.

3. Сорокин В. Н„ Ижнин А. Н., Цыплихин А. К, Чепелев Д. Н. Артикуляторноориентированная система распознавания речи // Труды Международного семинара «Диалог-2003», 2003, стр. 657-662.

4. Sorokin V.N., LeonovA.S., Makarov I.S., Tsyplikhin A.I. Speech inversion and resynthesis // Proceedings of InterSpeech-2005, Lisbon, 2005, P. 3209-3212.

5. Цыплихин А. К Импульсы голосового источника: гетерархический алгоритм синхронизации TWIN // Труды XVI сессии РАО, 2005, Т. 3, С. 36-40.

6. Леонов А.С., Макаров КС., Сорокин В.Н., Цыплихин А.И. Артикуляторный ресинтез гласных // Информационные процессы, 2003, Т. 3, № 2, С. 73-82.

7. Репин В. Г., Цыплихин А. И. Определение точной верхней грани ошибок методанаименьших квадратов // Радиотехника и электроника, 2003, Т. 48, № 1, С. 9199.

8. Леонов А.С., Макаров КС., Сорокин В.Н., Цыплихин А.К Артикуляторный ресинтез фрикативных // Информационные процессы, 2004, Т. 4, № 2, С. 141-159.

9. Сорокин В. Н., Цыплихин А. К. Сегментация и распознавание гласных // Информационные процессы, 2004, Т. 4, № 2, С. 202-220.

10. Леонов А.С., Макаров КС., Сорокин В.Н., Цыплихин А.К Кодовая книга для речевых обратных задач // Информационные процессы, 2005, Т. 5, № 2, С. 101-119.

11. Цыплихин А. И., Сорокин В. Н. Сегментация речи на кардинальные элементы //

12. Информационные процессы, 2006, Т. 6, № 3, С. 177-207.

13. Воронцов К. В. Комбинаторные обоснования обучаемых алгоритмов // ЖВ-МиМФ,2004, Т. 44, № 11, С. 2099-2112.

14. Макаров К. С. Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач. Диссер. на соиск. степ, к.т.н., ИППИ РАН,2005.

15. Покровский Н. Б. Расчет и измерение разборчивости речи. М.: Связьиздат, 1962.

16. Ралшшвили Г. С. Автоматическое опознавание говорящего по голосу. М.: Радио исвязь, 1981.-224 с.

17. Смирнов В. И. Курс высшей математики. Том 2. М: Государственное издательствотехнико-теоретической литературы, 1957.

18. Сорокин В. Н. Новые концепции в автоматическом распознавании речи //13 сессия

19. Российского акустического общества, 1999, С. 50-57.

20. Сорокин В. Н. Синтез речи. М.: Наука, 1992. - 392 с.

21. Сорокин В. Н. Теория речеобразования. М.: Радио и Связь, 1985. 312 с.

22. Сорокин В. Н., Трифоненков В. П. Об автокорреляционном анализе речевого сигнала // Акустический ж., 1996, Т. 42, N. 3, С. 418-425.

23. Сорокин В. Н., ЧепелевД. Н. Первичный анализ речевых сигналов // Акустическийж., 2005, Т. 51, № 4, С. 536-542.

24. Харкевич А. А. Теория информации. Опознание образов. Избранные труды в трехтомах. Т. III. М.: Наука, 1973. 524 с.

25. Abdulla W. Н., Chow D„ Sin G. Cross-words reference template for DTW based speechrecognition systems // IEEE TENCON 2003, Bangalore, India, 2003.

26. Acero A. Formant analysis and synthesis using hidden markov models // in Proc. Eur.

27. Conf. Speech Communication Technology, 1999.

28. Akaike H. A New Look at the Statistical Identification Model // IEEE Trans. On Automatic Control, 1974, V. 19, P. 716-732.

29. Ali A.M.A., Spiegel J. V. Acoustic-phonetic features for the automatic classification offricatives // J. Acoust. Soc. Am., 2001, V. 109, N. 5, Pt. 1, P. 2217-2235.

30. Altosaar Т., Karjalainen M. Event-Based Multiple Resolution Analysis of Speech Signals // In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, New-York, 1988, P. 327-330.

31. Amit Y., Koloydenko A., Niyogi P. Robust acoustic object detection // J. Acoust. Soc.

32. Amer., 2005, V. 118, N. 4, P. 2634-2648.

33. Andre-Obrecht R. A New Statistical Approach for the Automatic Segmentation of Continuous Speech Signals // IEEE Transactions on Acoustics, Speech Signal Processing, 1988, V. 36, P. 29-40.

34. A take Y., Irino Т., Kawahara H., LuJ., Nakamura S., Shikano K. Robust fundamentalfrequency estimation using instantaneous frequencies of harmonic components // Proc. ICSLP-2000,2000, V. 2, P. 907-910.

35. Atal B. S. Efficient Coding of LPC Parameters by Temporal Decomposition // In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, 1983, P. 81-84.

36. Atal B. S., Hanauer S. L. Speech analysis and synthesis by linear prediction of the speechwave // J. Acoust. Soc. Amer., 1971, V. 50, P. 637-655.

37. Aversano G. Phone Level Automatic Speech Segmentation. A Text-Independent Segmentation Algorithm and a Software Tool for Speech Annotation and Analysis. Ph.D. Thesis, Universita di Salerno, Italy, 2004.

38. Backfried G., Rainoldi R., Riedler J. Automatic Language Identification in Broadcast

39. News. In Proceedings of International Joint Conference on Neural Networks, 2002, V. 2, P. 1406-1410.

40. Backstrom T. Linear predictive modelling of speech Constraints and line spectrum pair

41. Decomposition: PhD thesis, 2004, Helsinki University of Technology. 84 p.

42. Bagshaw P. C., Hiller S. M., Jack M. A. Enhanced pitch tracking and the processing of fOcontours for computer aiding intonation teaching // Proc. Eurospeech-93,1993, V. 2, P. 1000-1003.

43. Basseville M. Distance Measures for Signal Processing and Pattern Recognition // Signal

44. Processing, 1989, V. 18, P. 349-369.

45. Basseville M., Nikiforov I. V. Detection of Abrupt Changes: Theory and Applications.

46. Englewood Cliffs, NJ, Prentice Hall, 1993.

47. Baudoin G„ CapmanF., CernockyJ., El ChamiF. CharbitM., Chollet G., Petrovska

48. Bellman R. Dynamic Programming. Princeton University Press, 1957.

49. Верри Т., Aikawa K. Spontaneous speech recognition using dynamic CEPSTRA incorporating forward and backward masking effect // In EUROSPEECH-1995,1995, P. 511-514.

50. Beringer N., Schiel F. Independent Automatic Segmentation of Speech by Pronunciation

51. Modeling I I In Proceedings of the 14th Int. Congress of Phonetic Sciences. San Francisco, 1999, P. 1653-1656.

52. Beulen K, Ney H. Automatic Question Generation for Decision Tree Based State Tying

53. In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1998, P. 805-808.

54. Biernacki C., Celeux G., Govaert G. Assessing a Mixture Model for Clustering with the1.tegrated Classification Likelihood // Technical Report No.3521, Rhone-Alpes:INRIA,1998.

55. Biernacki C., Govaert G. Using Classification Likelihood to Choose the Number of

56. Clusters // Computing Science and Statistics, 1997, V. 29, P. 451-457.

57. Bimbot F., Magrin-Chagnolleau I., Mathan L. Second-Order Statistical Measures for

58. Text-Independent Speaker Identification // Speech Communication, 1995, V. 17, P. 177-192.

59. Binnenpoorte D., Goddijn S„ Cucchiarini C. How to Improve Human and Machine

60. Transcriptions of Spontaneous Speech. ISCA/IEEE Workshop on Spontaneous Speech Processing and Recognition. Tokyo,2003, P. 147-150.

61. Bourlard H„ Morgan N. Speaker Verication: A Quick Overview // IDIAP Research Report, 1998.

62. Brugnara F., De Mori A., Giuliani D„ Omologo M. Improved Connected Digit Recognition Using Spectral Variation Functions // In Proceedings of International Conference on Spoken Language Processing, 1992, P. 627-630.

63. Campbell J. P. Speaker Recognition: a Tutorial // Proc. of the IEEE, 1997, V. 85, N. 9,1. P. 1437-1462.

64. Carlson R., Granstrom В., Fant G. Some studies concerning perception of isolated vowels // STL-QPSR 2-3,1970, P. 19-35.

65. Celeux G., Soromenho G. An Entropy Criterion for Assessing the Number of Clusters ina Mixture Model // Classification Journal, 1996, V. 13, P. 195-212.

66. Chu S., Keogh E„ Hart D., Pazzani M. Iterative Deepening Dynamic Time Warping for

67. Time Series // In: Proc. SIAM Int. Conf. on Data Mining, 2002.

68. Chu W. C. Speech Coding Algorithms: Foundation and Evolution of Standardized Coders. Wiley, 2003, ISBN 0 471 37312-5.

69. Church K. W. Speech and Language Processing: Where Have We Been and Where Are

70. We Going? Proceedings of the 8th European Conference on Speech Communication and Technology Eurospeech '03. Geneva, Switzerland, 2003, P. 1-4.56. de Cheveigne A. Speech fD extraction based on Licklider's pitch perception model //

71. Proc. ICPhS, 1991, P. 218-221.57. de Cheveigne A., Kawahara H. YIN, a fundamental frequency estimator for speech andmusic Hi. Acoust. Soc. Am., 2002, V. 111, P. 1917-1930.

72. Deller J. R., Proakis J. G., Hansen J. H. Discrete-time Processing of Speech Signals.

73. Macmillan, New York, 1993.

74. Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data viathe EM algorithm // J. of the Royal Statistical Society, Series B, 1977, N. 34, P. 138.

75. Deng L., Bazzi I., Acero A. Tracking vocal track resonances usign an analytical nonlinearpredictor and a targetguided temporal constraint // in Proc. Eur. Conf. Speech Communication Technology, 2003.

76. Deng L., Lee L„ Attias H., Acero A. A structured speech model with continuous hiddendynamics and predictionresidual training for tracking vocal track resonances // in IEEE ICASSP, 2004.

77. Dixon N. R., Martin Т. B. Automatic Speech and Speaker Recognition.- New York:1.EE Press, 1979.

78. Dusan S. Statistical estimation of articulatory trajectories from the speech signal usingdynamical and phonological constraints: PhD thesis, 2000, University of Waterloo. -230 p.

79. Esposito A., Pannacci L„ Perfetti R., Russo R.C. Speech Segmentation by Parametric

80. Filtering: Two New Distortion Measures and Experimental Evaluation, Technical Report n. IIASS-1-00, International Institute for Advanced Scientific Studies, Vietri sul Mare (SA), Italy, 2000.

81. Faltlhauser R., Ruske G. Improving Speaker Recognition Performance using Phonetically structured Gaussian Mixture Models // Proc. Eurospeech, 2001, P. 751-754.

82. Fant G. The Acoustic Theory of Speech Perception. Mouton, The Hague, 1960.

83. Finster H. Automatic speech segmentation using neural network and phonetic transcription // In Proceedings of International Conference on Neural Networks, 1992, V. 4, P. 734-736.

84. Franc V., Hlavac V. Statistical Pattern Recognition Toolbox // Czech Technical University Prague, 2000-2005, http://cmp.felk.cvut.cz

85. Furui S. Cepstral analysis technique for automatic speaker verification // IEEE Trans.

86. ASSP, 1981, V. 29, N. 2, P. 254-272.

87. Furuichi С., Aizawa K„ Inoue K. Speech Recognition Using Stochastic Phonemic Segment Model Based on Phoneme Segmentation // Systems and Computers in Japan, 2000, V.31(10), P. 1111-1119.

88. Gerhard D. Pitch extraction and fundamental frequency: history and current techniques

89. Technical report TR-CS 2003-06, University of Regina, Saskatchewan, Canada, 2003.

90. Glass J. R., Zue V. W. Multilevel Acoustic Segmentation of Continuous Speech // In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, 1988, P.429-432.

91. Gomez J.A., Castro M. J. Automatic Segmentation of Speech at the Phonetic Level // In

92. T. Caell et al. (eds): Lecture Notes in Computer Science, 2002, V. 2396, P. 672-680.

93. Gray R. M., Buzo A., Gray A. H., J., Matsuyama Y. Distortion measures for speech processing // IEEE Trans. Acoust. Speech Signal Process., 1980, V.28, P. 367-376.

94. Greenberg S. Strategies for Automatic Multi-Tier Annotation of Spoken Language Corpora // In Proceedings of the 8th European Conference on Speech Communication and Technology Eurospeech '03. Geneva, Switzerland, 2003, P. 45-48

95. Hanson B. A., Applebaum Т. H., JunquaJ. C. Spectral dynamics for speech recognitionunder adverse conditions. Automatic Speech and Speaker Recognition Advanced Topics, (Eds) С. H. Lee, F. K„ 1996.

96. Hermansky H. Analysis in Automatic Recognition of Speech // In: Chollet, G., Di

97. Benedetto M., Esposito, A., Marinaro M. (eds.): Speech Processing, Recognitionand Artificial Neural Networks, 3rd International School on Neural Nets "Eduardo R. Caianiello", Springer-Verlag, Berlin Heidelberg New York,1999, P. 115-137.

98. Hermansky H., Morgan N. RASTA processing of speech // in IEEE Transactions on

99. Speech and Audio Processing, 1994, V. 2, N. 4, P. 578-589.

100. Hess W. Pitch Determination of Speech Signals.- Berlin: Springer-Verlag, 1983.

101. Horak P. Automatic Speech Segmentation Based on DTW with the Application of the

102. Czech TTS System // In E. Keller, G.Bailly, A, Monaghan, J. Terken, M. Huckwale (eds.): Improvements in Speech Synthesis. John Wiley and Sons Ltd., 2001, P. 331— 340.

103. HuangX, Acero A., Hon H.-W. Spoken Language Processing. Prentice-Hall, 2001.

104. Itakura F. Minimum prediction residual principle applied to speech recognition // IEEE

105. Trans Acoustics Speech Signal Process, 1975, V. 23, P. 52-72.

106. ITU-T Recommendation P. 11,1994.

107. Jain A., Bolle R., Pankanti S., editors Biometrics: Personal Identification in Networked

108. Society, Kluwer Academic Publishers, Boston, MA, 1999.

109. Jeong C. G., Jeong H. Automatic Phone Segmentation and Labeling of Continuous

110. Speech // Speech Communication, 1997, V. 20, P. 291-311.

111. Jordan M. I., Xu L. Convergence results for the EM approach to mixtures of expertsarchitectures // Neural Networks, 1996, 8:1409-1431.

112. Kanthak S., Ney H. Multilingual Acoustic Modeling Using Graphemes // In Proceedingsof European Conference on Speech Communication and Technology, 2003, V. 2, P. 1145-1148.

113. Kasi K., Zahorian S. A. Yet another algorithm for pitch tracking // ICASSP-2002,2002.

114. Kim C., Seo K.-D., Sung W. A robust formant extraction algorithm combining spectralpeak picking and root polishing // Eurasip. Journ. Applied Sig. Proc., 2006.

115. Klatt D. H. Linguistic uses of segmental duration in English: Acoustic and perceptualevidence // J. Acoust. Soc. Am., 1976, V. 59, P. 1208-1221.

116. Klatt D. H. Speech processing strategies based on auditory models // in The Representation of Speech in the Peripheral Auditory System, edited by R. Carlson and B. Gran-strom Elsevier Biomedical, Amsterdam, 1982, P. 181-196.

117. Koehler А. В., Murohee E.H. A Comparison of Akaike and Schwarz Criteria for Selecting Model Order// Applied Statistics, 1988, V. 37, P. 187-195.

118. Kolokolov A. S. Preprocessing and Segmentation of the Speech Signal in the Frequency

119. Domain for Speech Recognition. Automation and Remote Control, 2003, V.64(6), P. 985-994.

120. KominekJ., Bennett C., Black A. W. Evaluating and Correcting Phoneme Segmentationfor Unit Selection Synthesis // in Proceedings ESCA Eurospeech'03,2003.

121. Кио В. C., Landgrebe D. Improved Statistics Estimation And Feature Extraction For

122. Hyperspectral Data Classification // PhD Thesis and School of Electrical & Computer Engineering Technical Report TR-ECE 01-6, December 2001 (88 pages).

123. Kvale K. Segmentation and Labelling of Speech // Ph.D Dissertation, The Norwegian1.stitute of Technology, 1993.

124. Lavielle M. Detection of Changes in the Spectrum of Multidimensional Process // IEEE

125. Transactions on Signal Processing, 1993, V. 41, P. 742-749.

126. LeonovA. S., Sorokin V. N. Inverse problem for the vocal tract: identification of controlforces from articulatory movements // Pattern Recognition and Image Analysis. 2000. Vol. 10, № l.P. 110-126.

127. Levinson S. E., Liberman M. Y. Speech recognition by computer // Scientific American,1981, V. 244, P. 56-68.

128. Li Т. H. Gibson J. D. Speech Analysis and Segmentation by Parametric Filtering // IEEE

129. Transactions on Speech and Audio Processing, 1996, V. 4(3), P. 203-213.

130. Lin M.-T., Lee C.-K., Lin C.-Y. Consonant/Vowel Segmentation for Mandarin Syllable

131. Recognition // Computer Speech and Language, 1999, V. 23, P. 207-222.

132. Liu D., Lin C. Fundamental frequency estimation based on the joint time-frequencyanalysis of harmonic spectral structure // IEEE Trans. Speech Audio Process., 2001, V. 9(6), P. 609-621.

133. Loizou P. COLEA: A MATLAB software tool for speech analysis // www.utdallas.edu/loizou/speech/

134. Long C. J., Datta S. Wavelet Based Feature Extraction for Phoneme Recognition //

135. PROC. ICSLP96,1996, P. 264-267.

136. Louradour J., Andre-Obrecht R., Daoudi K. Segmentation and Relevance Measure for

137. Speaker Verification // In INTERSPEECH-2004,2004, P. 1401-1404.

138. MakhoulJ. Spectral Linear Prediction: Properties and Applications // IEEE Transactions

139. ASSP, 1975, V. 23(5), P. 283-296.

140. McLachlan G., Peel D. Finite Mixture Models // New York: John Wiley & Sons Inc.,2000.

141. Meddis R., Hewitt M. J. Virtual pitch and phase sensitivity of a computer model of theauditory periphery. I: Pitch identification // J. Acoust. Soc. Am., 1991, V. 89, P. 2866-2882.

142. Melin Н. On Word Boundary Detection in Digit-Based Speaker Verification", Workshopon Speaker Recognition and its Commercial and Forensic Applications (RLA2C), Avignon, France, 1998, P. 46-49.

143. Mermelstein P. Automatic segmentation of speech into syllable units // J. Acoust. Soc.

144. Amer., 1975, V. 58, N. 4, P. 880-883.

145. Mitchell C. D., Harper M. P., Jamieson L. H. Using Explicit Segmentation to Improve

146. HMM Phone Recognition // In Proceedings of International Conference on Acoustic, Speech and Signal Processing, 1995, P. 229-232.

147. Miyoshi Y„ Yamato 1С, Mizoguchi R, Yanagida M., Kakusho O. Analysis of speech signal of short pitch period by a sample-selective linear prediction // IEEE Trans. Acoust. Speech Signal Process., 1987, V. 35, N. 9, P. 1233-1240.

148. Myers C., Rabiner L., RosenebergA. Performance tradeoffs in dynamic time warpingalgorithms for isolated word recognition // IEEE Trans Acoustics Speech Signal Process, 1980, V. 28, P. 623-635.

149. Nakatani Т., Irino T. Robust and accurate fundamental frequency estimation based ondominant harmonic components // J. Acoust. Soc. Am., 2004, V. 116(6), P. 36903700.

150. Naonori U., RyoheiN., Ghahramani Z, Hinton G.E. SMEM Algorithm for Mixture

151. Models//Neural Computation, 2000, V. 12, N. 9, P. 2109-2128.

152. Nedic В., BourlardH. Recent Developments in Speaker Verification at IDIAP, IDIAP1. Research Report, 2000.

153. Ney H. Dynamic programming algorithm for optimal estimation of speech parametercontours // IEEE Trans, on Systems, Man and Cybernetics, 1983, V. SMC-13, N. 3, P. 208-214.

154. Niyogy P., Sondhi M.M. Detecting stop consonants in continuous speech // J. Acoust.

155. Soc. Amer., 2002, V. 111, P. 1063-1076.

156. Noll A. M. Cepstrum pitch determination // J. Acoust. Soc. Am., 1967, V. 41, P. 293-309. 121 .Paliwal K. 1С Dimensionality reduction of the enhanced feature set for the HMM-basedspeech recognizer// Digital Signal Processing, 1992, V. 2, P. 157-173.

157. Pan V. Y. Solving a Polynomial Equation: Some History and Recent Progress SIAM Review, 1997, V. 39, N. 2, P. 187-220.

158. Petek В., Anderson O., Dalsgaard P. On the robust automatic segmentation of spontaneous speech // In Proceedings of the International Conference on Spoken Language Processing (ICSLP'96), Philadelphia, 1996, P. 913-916.

159. Picone J. Continuous Speech Recognition Using Hidden Markov Models. IEEE ASSP1. Magazine, 1990, P. 26-41.

160. Picone J. Signal Modeling Techniques in Speech Recognition // Proc. of the IEEE, 1993,

161. V. 81, N. 9, P. 1215-1247.

162. Plante F., Ainsworth W. A., Meyer G. F. A pitch extraction reference database // Proc.

163. Eurospeech-95, 1995, P. 837-840.

164. Potamianosa A. Maragos P. Speech formant frequency and bandwidth tracking usingmultiband energy demodulation // J. Acoust. Soc. Amer., 1996, V. 99, P. 37953806.

165. Prasad V. K., Nagarajan Т., MutrhyH. A. Automatic Segmentation of Continuous

166. Speech Using Phase Group Delay Functions // Speech Communication, 2004, V. 42 P.429-446.

167. Rabiner L. R., Cheng M. J., Rosenberg A. E., McGonegal C. A. A comparative performance study of several pitch detection algorithms // IEEE Trans. Audio Electroacoust., 1976, ASSP-24, P. 399-417.

168. Rabiner L. R., Juang В. H. An Introduction to Hidden Markov Models // IEEE ASSP1. Magazine, 1986, P. 4-16.

169. Rabiner L. R., Juang В. H. Fundamentals of speech recognition. Prentice, Englewood1. Cliffs, NJ, 1993.

170. Rabiner L. R., Levinson S. E., Rosenberg A. E., Wilpon J. G. Speaker Independent Recognition of Isolated Words Using Clustering Techniques // IEEE Trans, on Acoust. Speech and Signal Processing, ASSP, 1979, V. 27, N. 4, P. 336-49.

171. Rabiner L. R., Schafer R. W. Digital Processing of Speech Signals. Prentice-Hall, Englewood Cliffs, NJ, 1978.

172. Rose R., SchroeterJ., SondhiM. M. The potential role of speech production models inautomatic speech recognition//J. Acoust. Soc. Am, 1996, V. 99. P. 1699-1709.

173. Rosner B. S., Pickering, J. B. Vowel Perception and Production. Oxford University1. Press, New York, 1994.

174. Ross M. J., Shaffer H. L., Cohen A., Freudberg R., Manley H. J. Average magnitude difference function pitch extractor // IEEE Trans. Acoust. Speech Signal Process., 1974, V.22, P. 353-362.

175. Sakoe H., Chiba S. Dynamic programming algorithm optimization for spoken wordrecognition // IEEE Trans Acoustics Speech Signal Process ASSP, 1978, V. 26, P. 43-49.

176. SchroeterJ., Sondhi M. M. Speech coding based on physiological models of speech production // Advances in Speech Production, eds S.Furui and M.M. Sondhi, Marcel Dekker, NY. 1991. P. 231-268.

177. Schwarz G. Estimating the Dimension of a Model // Annals of Statistics, 1978, V. 6, P.461.464.

178. Sharma M., Mammone R. Automatic Speech Segmentation Using Neural Tree Networks

179. In Proceedings of IEEE Workshop on Neural Networks for Signal Processing, 1995, P. 282-290.

180. Shimamura Т., Kobayashi H. Weighted autocorrelation for pitch extraction of noisyspeech // IEEE Trans. Speech Audio Process. ,2001, V. 9(7), P. 727-730.

181. Silverman H. F., Morgan D. P. The Application of Dynamic Programming to Connected

182. Speech Recognition. IEEE ASSP Magazine, 1990, P. 6-25.

183. Sinder D., Sondhi M. M. Text-to-speech from concatenation of articulatory units derivedfrom natural speech // J. Acoust. Soc. Am., 2003, V. 113, Pt. 2. P. 2199.

184. StoberK., Hess W. Additional Use of Phoneme Duration Hypotheses in Automatic

185. Speech Segmentation // Proceeding of the ICSLP'98, Sydney, 1998, Paper number 239.

186. Svendsen Т., Soong F. K. On Automatic Segmentation of Speech Signals. In Proceedingsof International Conference on Acoustics, Speech, and Signal Processing, Dallas, 1987, P. 77-80.

187. Toh A.M., Togneri R., Nordholm S. Spectral Entropy as Speech Features for Speech Recognition // Proceedings of PEECS2005, Perth, 2005, P. 22-25.

188. Vidal E., Marzal A. A Review and New Approaches for Automatic Segmentation of

189. Continuous Speech Signals. In L. Torress et al. (eds): Signal Processing V: Theories and Applications, Elsevier Publisher, New-York, 1990, P. 43-53.

190. Wang C., SeneffS. Robust pitch tracking for prosodic modeling in telephone speech //

191. Proc. ICASSP-2000,2000, P. 1343-1346.

192. Wei В., Gibson J. D. A New Discrete Spectral Modeling Method and an Application to

193. CELP Coding // IEEE Signals Processing Letters, 2003, V. 10(4), P. 101-103.

194. Wendt C., Petropulu A.P. Pitch Determination and Speech Segmentation Using the Discrete Wavelet Transform // In Proceedings of IEEE International Symposium on Circuits and Systems, 1996, V. 2, P. 45-48.

195. WestburyJ. X-ray Microbeam Speech Production Database User's Handbook, Version10 (June 1994)//University of Wisconsin, 1994.

196. Wokurek W. Corpus Based Evaluation of Entropy Rate Speech Segmentation// In Proceedings of 14th International Congress of Phonetic Sciences, 1999, P. 1217-1220.

197. Wu С. F. G. On the convergence properties of the EM algorithm I I The Annals of Statistics, 1983, N. 11, P. 95-103.

198. Wu Y.J., Kawai H., Ni J., Wang R.H. Discriminative training and explicit duration modeling for HMM-based automatic segmentation // Speech Communication, 2005, V. 47, N. 4, P. 397-410.

199. Xafopoulos A. Speaker Verification (an overview) // TUT TICSP presentation, 2001.

200. Xia K., Espy-Wilson C. A New Strategy of Formant Tracking Based on Dynamic

201. Programming // In ICSLP-2000, V. 3, P. 55-58.

202. Xu L„ Jordan M. I. On convergence properties of the em algorithm for Gaussian mixtures //Neural Computation, 1996, 8:129-151.

203. YoungS. J., Woodland P. C. State Clustering in Hidden Markov Model-Based Continuous Speech Recognition // Computer Speech and Language, 1994, V. 8, P. 369-383.

204. Zue V. W, Glass J. R., Philips M„ SeneffS. Acoustic Segmentation and Phonetic Classification in the Summit System // In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, 1989, P. 389-392.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.