Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов

Фирсова, Александра Александровна

Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Фирсова, Александра Александровна

Фирсова, Александра Александровна
кандидат технических наук
2013

Специальность ВАК РФ05.13.17

Количество страниц 179

Фирсова, Александра Александровна. Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов: дис. кандидат технических наук: 05.13.17 - Теоретические основы информатики. Белгород. 2013. 179 с.

Оглавление диссертации кандидат технических наук Фирсова, Александра Александровна

ВВЕДЕНИЕ.

ГЛАВА 1 СОВРЕМЕННЫЕ МЕТОДЫ И АЛГОРИТМЫ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ.

1.1 Основные характеристики звуков русской речи.

1.2 Исследование существующих алгоритмов селекции пауз.

1.3 Исследование существующих алгоритмов сегментации речевых сигналов.

1.4 Исследование существующих алгоритмов оценивания периода основного тона.

1.5 Основные положения субполосного анализа сигналов.

1.6 Задачи исследования.

ГЛАВА 2 СУБПОЛОСНЫЕ МОДЕЛИ ОТРЕЗКОВ РЕЧЕВЫХ СИГНАЛОВ И СЕЛЕКЦИЯ ПАУЗ МЕЖДУ ЗВУКАМИ РЕЧИ.

2.1 Вычислительные аспекты субполосного анализа отрезков РС.

2.2 Распределение энергий по частотным интервалам отрезков РС, порождаемых разными звуками русской речи.

2.3 Селекция пауз между звуками речи.

2.4 Результаты и выводы главы.

ГЛАВА 3 СЕГМЕНТАЦИЯ РЕЧЕВЫХ СИГНАЛОВ ПО ГРАНИЦАМ ЗВУКОВ РУССКОЙ РЕЧИ.

3.1 Метод и алгоритм определения границ звуков русской речи.

3.2 Селекция вокализованных звуков русской речи и оценка периода основного тона.

3.3 Результаты и выводы главы.

ГЛАВА 4 ПРОГРАММНАЯ РЕАЛИЗАЦИИ АЛГОРИТМОВ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ.

4.1 Описание структуры программной реализации алгоритмов сегментации РС.

4.2 Интерфейс прототипа программной поддержки алгоритмов сегментации PC.

4.3 Рекомендации по выбору параметров.

4.4 Результаты и выводы главы.

Введение диссертации (часть автореферата) на тему «Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов»

Актуальность диссертационного исследования. Устная речь является одной из наиболее естественных для человека форм информационного обмена. В соответствии с этим существенное внимание уделяется разработке методов автоматического анализа устной речи на компьютерах, одним из важнейших направлений развития которых является совершенствование человекомашинных интерфейсов. При этом обработке подвергаются речевые сигналы (PC), которые представляют собой результаты регистрации электромагнитных колебаний на выходе микрофонов, возбуждаемых акустическими воздействиями. В определенном смысле базовым этапом автоматического анализа устной речи служит сегментация PC на отрезки, которые порождены в разных условиях. Наибольший интерес представляет выделение участков, зарегистрированных при отсутствии звуков речи (селекция пауз, в том числе при сжатии речевых данных), определение границ участков, порождаемых разными звуками речи и определение среди последних отрезков, порождаемых вокализованными звуками (в задачах идентификации дикторов и оценки их психофизического состояния, распознавания речи и ее вокодерного синтеза с помощью липредеров и т.д).

Проблема анализа речевых сигналов рассматривалась в достаточно большом количестве работ зарубежных и российских авторов, среди которых можно отметить J1. Рабинера, Б. Голда, М.А. Сапожкова, О.И. Шелухина,

A.B. Аграновского, В.Н. Сорокина, Р.В. Гудонавичюса, Ю.Н. Прохорова,

B.Г. Санникова, М.В. Хитрова, Е.Г. Жилякова и других. В основе многих из разработанных подходов используются частотные представления, так как порождаемые звуками речи отрезки PC обладают свойством концентрации энергии в достаточно «узких» полосах частотной оси. В связи с этим можно упомянуть рассматриваемое в литературных источниках разбиение частотной полосы на так называемые критические полосы слуха, которые 4 опосредованно отражаются на частотных свойствах РС. До определенной степени эквивалентным (с учетом равенства Парсеваля) инструментом обработки РС представляется корреляционный анализ, особенно в задачах распознавания речевых конструкций из созданных заранее словарей.

Вместе с тем можно отметить, что предлагаемые в настоящее время методы сегментации РС на основе анализа их частотно-корреляционных свойств либо не отражают свойства концентрации энергии, либо слишком чувствительны к изменениям энергии в паузах.

Таким образом, адекватным подходом к обработке РС является субполосный анализ, когда их свойства соотносятся с некоторым разбиением оси частот на интервалы конечной ширины. Причем, в виду зависимости частотного распределения энергий от вида произносимого звука, анализу необходимо подвергать отрезки РС конечной длительности. Отметим необходимость проведения специальных исследований специфики частотного распределения энергий отрезков РС, порождаемых русской устной речью.

В рамках данной работы в качестве основных субполосных характеристик рассматриваются:

Рг{хи)= \ \Х{(о)\2 асоНж, аеУг

Фгм= ¡Х{б))¥*{о))с1а)/ 2ж, аеУг где Х(а>) и У(со) - трансформанты (спектры) Фурье анализируемых отрезков вида ад = £ Ч ехрНа)(к - 1)),у = (-1)1/2, к=1

Уг - составной интервал оси частот

У г = [~Г\г -Уг г) и [У\г> ^), 0

Соотношение Рг (хм) определяет часть энергии, попадающую в заданный частотный интервал Уп а Фги - субполосную корреляцию спектров различных отрезков. В дальнейшем будет показано, что вычисление их точных значений можно осуществить непосредственно во временной области, не вычисляя спектров.

Вместе с тем следует отметить, что в настоящее время в качестве основного инструмента частотной обработки РС используется преобразование Фурье, преимущественно дискретное преобразование Фурье (ДПФ), что, по-видимому, обусловлено наличием алгоритма его быстрого вычисления (алгоритма БПФ). Важно иметь в виду, что ДПФ является вариантом разложения сигналов по ортонормированному базису специального вида и не позволяет в полной мере описать распределение энергий отрезков РС по частотным интервалам, то есть адекватно отразить их физическую сущность.

Использование ортогональных разложений по иным базисам, например, вейвлет-анализ, по тем же причинам нельзя признать адекватным подходом к описанию распределения энергий анализируемых отрезков по частотным интервалам.

Таким образом, разработка субполосных методов и алгоритмов сегментации речевых сигналов на основе адекватного анализа динамики изменений распределения энергий их отрезков по частотным интервалам является актуальной задачей.

Целью данной работы является совершенствование методов и алгоритмов компьютерного анализа русской устной речи на основе разработки субполосных методов сегментации РС на отрезки со значимыми различиями в распределениях энергий по частотным интервалам, которые обусловлены сменами звуков речи либо их отсутствием (наличием пауз).

Методы исследований. В работе использованы методы субполосного анализа/синтеза, статистического анализа, цифровой обработки речевых данных, линейной алгебры и вычислительных экспериментов.

Научную новизну работы составляет следующее:

1. Модели частотного распределения энергий порождаемых звуками русской устной речи отрезков РС с учетом их длительности.

2. Решающие функции для сопоставления распределений энергий различных отрезков речевых сигналов по частотным интервалам в задачах селекции пауз и определения границ между звуками в русской устной речи.

3. Субполосный нормированный коэффициент корреляции, позволяющий повысить обоснованность решений о величине периода основного тона в задачах селекции вокализованных звуков русской устной речи.

Практическая значимость работы определяется разработанными алгоритмами сегментации РС по границам звуков русской устной речи, применение которых позволяет усовершенствовать процедуры решения задач сжатия речевых данных, распознавания речи, её синтеза, идентификации дикторов, проведения психофизических исследований и т.д.

Полученные результаты используются в ООО «Матрица», что подтверждается соответствующим актом, а также в учебном процессе подготовки бакалавров и магистров факультета КНиТ ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет».

Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.17 «Теоретические основы информатики» (технические науки) по следующим областям исследований: п.5. Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений. п.6. Разработка методов, языков и моделей человекомашинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке.

Связь с научными и инновационными программами.

Диссертационное исследование выполнялось в рамках следующих федеральных проектов: ГК № П964 от 27 мая 2010г., ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы; проект № 2.1.2/9382 АВЦП "Развитие научного потенциала высшей школы (2009-2010 годы)"; ГК № 10-07-00326а, РФФИ; программа УМНИК-2010, проект № 13990; программа УМНИК-2012, проект № 16945.

Положения, выносимые на защиту:

1. Субполосные методы сегментации РС по границам звуков русской устной речи, позволяющие усовершенствовать процедуры селекции пауз, определения границ звуков русской речи, селекции вокализованных звуков русской речи, включая оценивание периода основного тона.

2. Алгоритмы субполосной обработки отрезков речевых сигналов при их сегментации по границам звуков русской устной речи.

3. Результаты сравнительных вычислительных экспериментов, иллюстрирующих эффективность разработанных алгоритмов субполосной сегментации РС.

Достоверность выводов и рекомендаций обусловлена корректностью применяемых математических преобразований, отсутствием противоречий с известными фактами теории и практики обработки речевых сигналов, а также иллюстрируется результатами вычислительных экспериментов с реальными речевыми данными.

Личный вклад соискателя. Все изложенные в диссертации результаты исследования получены либо соискателем лично, либо при его непосредственном участии.

Апробация результатов диссертационного исследования. 8

Результаты диссертационного исследования обсуждались на следующих научно-технических конференциях: Международная молодежная конференция «Прикладная математика, управление и информатика», (г.Белгород, 2012); 13-ая, 12-ая Международная конференция и выставка «Цифровая обработка сигналов и её применение - Э8РА» (г.Москва, 2011, 2010 гг.); XIX Международная научно-практическая конференция «Информационные технологии: наука, техника, технология, образование, здоровье» (г.Харьков, 2011); II Международная научно-практическая конференция «Информационные технологии и компьютерная инженерия» (г.Харьков, 2011); Вторая Международная научно-техническая конференция, «Компьютерные науки и технологии» (г.Белгород, 2011); XXIII Международная научная конференция «Математические методы в технике и технологиях-ММТТ-23» (г.Саратов, 2010); Вторая Международная научно-практическая Интернет-конференция Белгородского филиала НАЧОУВПОСГА (г.Белгород, 2010); Всероссийская научная конференция с элементами научной школы для молодежи «Параллельная компьютерная алгебра» (г.Ставрополь, 2010); Всероссийская молодежная конференция «Теория и практика системного анализа» (г.Белгород, 2012).

Публикации. По теме диссертационного исследования опубликовано 24 печатные работы (из них 8 в журналах из списка ВАК РФ), в том числе 2 Свидетельства Роспатента РФ о государственной регистрации программ для ЭВМ.

Объем и структура работы. Диссертация состоит из Введения, четырех глав, Заключения и Приложений. Работа изложена на 165 страницах машинописного текста, включая 86 рисунков, 10 таблиц и список литературных источников из 110 наименований.

Заключение диссертации по теме «Теоретические основы информатики», Фирсова, Александра Александровна

ЗАКЛЮЧЕНИЕ

1. Построены модели частотного распределения энергий порождаемых звуками русской устной речи отрезков РС с учетом их длительности, которые используются при создании методов и алгоритмов сегментации РС.

2. Разработаны субполосные методы и алгоритмы сегментации РС на отрезки со значимыми различиями в распределениях энергий по частотным интервалам, позволяющие усовершенствовать методы и алгоритмы компьютерного анализа русской устной речи, включая:

2.1. метод и алгоритм селекции пауз с обучением на основе введенной субполосной решающей функции;

2.2. метод и алгоритм определения границ отрезков РС, порождаемых разными звуками русской речи, на основе субполосной решающей функции;

2.3. метод и алгоритм селекции вокализованных участков русской речи на основе введенного субполосного нормированного коэффициента корреляции.

3. Разработаны метод и алгоритм оценивания периода основного тона РС, порождаемых вокализованными звуками русской речи, на основе использования введенного субполосного нормированного коэффициента корреляции.

4. Разработан прототип программной поддержки созданных алгоритмов сегментации РС по границам звуков русской речи.

5. Результаты проведенных вычислительных экспериментов иллюстрируют обоснованность основных выводов и преимущества созданных методов и алгоритмов.

6. Вычислительные эксперименты показали, что алгоритм селекции пауз с обучением на основе введенной субполосной решающей функции обеспечивает вероятности ошибочного принятия решения не более 0,08; алгоритм определения границ отрезков РС, порождаемых разными звуками

151 русской речи, на основе субполосной решающей функции обеспечивает вероятности ошибочного принятия решения в границах 0,15+0,2; алгоритм селекции вокализованных участков русской речи, на основе введенного субполосного нормированного коэффициента корреляции обеспечивает вероятности ошибочного принятия решения не больше 0,12 при обеспечении погрешности оценивания периода основного тона не более 0,02.

7. Из полученных результатов исследования следует вывод о том, что разработанные методы и алгоритмы позволяют усовершенствовать процедуры автоматического компьютерного анализа русской устной речи.

Список литературы диссертационного исследования кандидат технических наук Фирсова, Александра Александровна, 2013 год

1. Аграновский, A.B. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов Текст./ A.B. Аграновский, Д.А. Леднов -М.: Радио и связь, 2004. 164 с.

2. Алдошина, И.А. Основы психоакустики. Слух и речь. Часть 2 Текст. / И.А. Алдошина // Информационно-технический журнал «Звукорежиссер». 2002. - №3. - С.54-58.

3. Алдошина, И.А. Основы психоакустики. Слух и речь. Часть 3 Текст. / И.А. Алдошина // Информационно-технический журнал «Звукорежиссер». 2002. - №4. - С.38-44.

4. Алдошина, И.А. Основы психоакустики. Слух и речь. Часть 4 Текст. / И.А. Алдошина // Информационно-технический журнал «Звукорежиссер». 2002. - №5. - С.44-50.

5. Алдошина, И.А. Основы психоакустики. Слух и речь. Часть 1 Текст. / И.А. Алдошина // Информационно-технический журнал «Звукорежиссер». -2002.-№1.- С.38-44.

6. Алдошина, И.А. Слуховые модели восприятия линейных и нелинейных искажений в музыке и речи. Часть 1 Текст. / И.А. Алдошина // Информационно-технический журнал «Звукорежиссер». 2006. - №3. - С.38-44.

7. Бабкин, В.В. Помехоустойчивый выделитель основного тона речи Текст. /В.В. Бабкин// Труды 7-й Международной Конференции и Выставки Цифровая Обработка Сигналов и ее Применение (DSPA-2005) Москва, 2005. - С.175-178.

8. Бабкина Л.Н., Молчанов А.П. «Способ адаптивной фильтрации речевых сигналов в слуховых аппаратах», патент RU -2047946 от 10.11.95

9. Бабкина, Л.Н. Особенности отображения частотной структуры сигналов в периферическом отделе слухового анализатора в норме ипатологии Текст./ Л.Н. Бабкина, А.П. Молчанов // Вестник оториноларингологии. 2000. -N3. - С.28-30

10. Баронин, С.П. Спектральный анализ и проблема сокращенного описания речевых сигналов Текст. В кн.: Спектральный анализ звуков речи и интонации звуков речи и интонации. М. 1969, с. 13-30.

11. Баронин, С.П. Автокорреляционный метод выделения основного тона речи. Пятьдесят лет спустя Текст. /С.П. Баронин// Речевые технологии, 2/2008.-2008.-С.3-12.

12. Бахвалов, Н.С. Численные методы Текст. / Н.С. Бахвалов, Н.П. Жидков, Г.М, Кобельников. 3-е изд., перераб. - М.: БИНОМ. Лаборатория знаний, 2003. -.632 с.

13. Белов, A.C. Исследования алгоритма обнаружения пауз в речевых сообщениях Текст./ A.C. Белов// Научные ведомости БелГУ, серия «Информатика и прикладная математика». Белгород. - 2007. - Вып. 7(38). -С.214-221

14. Белов, A.C. Новый алгоритм обработки звуковых сигналов для обнаружения пауз Текст./ A.C. Белов// Труды учебных заведений связи. -СПб. -2007. №176. - С. 163-170.

15. Белов, С.П. О различиях частотных свойств информационных и неинформационных звуковых сигналов речевого диапазона Текст. / С.П. Белов, A.C. Белов // журнал «Научные ведомости БелГУ» Серия: Информатика. Белгород. - 2008. - Вып. 7(38). - С.214-221.

16. Белошапкова, В.А. Современный русский язык: Учеб. для филол. спец. ун-тов Текст./ В.А. Белошапкова, Е.А. Брызгунова, Е.А. Земская под ред. В.А. Белошапковой М.: Высш. шк., 1989. - 800 с.

17. Буланин, Л.Л. Фонетика современного русского языка Текст. -М.: «Высшая школа», 1970. 206 с.

18. Васильев, Е.М. Система распознавания фонетических образов на основе нейросетевой модели восприятия речи Текст. /Е.М. Васильев, В.В.

19. Меренков// Вестник Воронежского государственного технического университета. 2009. - Т.5. № 10. - С.130-134.

20. Винцюк, Т.К., Анализ, распознавание и интерпретация речевых сигналов Текст./ Винцюк Т.К. Киев: Наук.думка, 1987. - 264с.

21. Воеводин, В.В. Матрицы и вычисления Текст. / В.В. Воеводин, Ю.А. Кузнецов. М.: Наука, 1984. - 318 с.

22. Гантмахер, Ф.Р. Теория матриц Текст. / Ф.Р. Гантмахер. М.: Физматлит, 2004. - 560с.

23. Гольдштейн, B.C. IP-Телефония Текст. / B.C. Гольдштейн, A.B. Пинчук, А.Л.Суховицкий. М.: Радио и связь, 2001. - 336с.: ил.

24. Гребнов, C.B. Аналитический обзор методов распознавания речи в системах голосового управления Текст./ C.B. Гребнов // Вестник ИГЭУ. -2009. Вып.З. - С.83-85.

25. Губочкин, И.В. Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования Текст.: автореф. дис. канд. техн наук / И.В. Губочкин Нижний Новгород: НГЛУ, 2011. - 22с.

26. Гудонавичюс, Р.В. Распознавание речевых сигналов по их структурным свойствам Текст./Р.В. Гудонавичюс, П.П. Кемешис, А.Б. Читавичюс Л.: «Энергия», 1977. - 64 с.

27. Деркач, М.Ф. Динамические спектры речевых сигналов Текст./ М.Ф. Деркач, Р.Я. Гумецкий, Б.М. Гура, М.Е. Чабан Львов: Виша школа. Изд-во при Львов, ун-те, 1983. - 168 с.

28. Дорохин, O.A. Сегментация речевого сигнала Текст. / O.A.

29. Дорохин, Д.Г. Старушко, Е.Е. Федоров, В.Ю. Шелепов // Институт проблемискусственного интеллекта. 2000. - 3/2000. - С.450-458.155

30. Жиляков, Е.Г. Об одном подходе к обнаружению пауз в речевых сообщениях Текст. / Е.Г. Жиляков, A.C. Белов // Материалы 8-ой международной научно-технической конференции УГАТУ «Проблемы техники и технологии телекоммуникаций. Уфа. - 2007. - С.73-74.

31. Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. Текст. / Е.Г. Жиляков. -Белгород: Изд-во БелГУ, 2007. 160 с.

32. Жиляков, Е.Г. Исследование решающих функций при сегментацииречевых сигналов для различных звуков русской речи Текст. / Е.Г. Жиляков,

33. A.A. Фирсова, Д.К. Секисов // Сборник трудов Второй Международной156научно-технической конференции «Компьютерные науки и технологии». -Белгород. 2011. С.579-584.

34. Жиляков, Е.Г. Компьютерная сегментация речевых сигналов Текст. / Е.Г. Жиляков, Е.И. Прохоренко, A.A. Фирсова, Д.К. Секисов// Журнал «Вопросы радиоэлектроники». Сер. «Электронная вычислительная техника». -2012-Вып. 1. -С.48-54.

35. Жиляков, Е.Г. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений Текст./ Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко. -Белгород: Изд-во БелГУ, 2007. 136 с.

36. Жиляков, Е.Г. О кодировании пауз в речевых сигналах Текст. / Е.Г. Жиляков, С.П.Белов, Е.И. Прохоренко // Материалы Шестой Международной научно-технической конференции «Проблемы техники и технологии телекоммуникаций». -Уфа. 2005. - С.73-74.

37. Жиляков, Е.Г. О сжатии речевых сигналов Текст. / Е.Г. Жиляков, С.П. Белов, Е.И.Прохоренко // Вестник Национального технического университета «ХПИ». 2005. - вып.56. - С.32-41.

38. Жиляков, Е.Г. О субполосном кодировании сигнала Текст. / Е.Г. Жиляков, И.Г.Попов, И.И. Чижов // Вестник национального технического университета «ХПИ». 2004. - № 46. - С.

39. Жиляков, Е.Г. Обнаружение звуков речи на фоне шумов Текст./ Е.Г. Жиляков, С.П. Белов // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. 2012. - №7(126) Выпуск 22/1. - С.182-189.

40. Жиляков, Е.Г. Частотный анализ речевых сигналов Текст. / Е.Г.

41. Жиляков, Е.И.Прохоренко // Научные ведомости Белгородского158государственного университета. Сер. Информатика и прикладная математика 2006. -№2(31), выпуск 3. - С.201-208.

42. Засыпкин, A.B. О дикторонезависимой системе голосового телефонного номеронабирателя Текст. / A.B. Засыпкин, А.Т. Мицевич, М.В. Овецкий, В.Ю. Шелепов// Труды международной конференции "Знание-Диалог-Решение". Ялта. - 1995. - С.427-430.

43. Каганов, А.Ш. Криминалистическая экспертиза звукозаписей. -М.: "Юрлитинформ", 2005. 272с.

44. Калинцев, Ю.К. Разборчивость речи в цифровых вокодерах Текст. М.: «Радио и связь», 1991. - 220 с.

45. Ковалев, В.П. Современный русский литературный язык, Часть 1 Текст./В.П. Ковалев, Л.И. Минина-М.: «Просвещение», 1979. -С.304.

46. Коваль С.Л., Лабутин П.В., Раев А.Н. Патент РФ 2230375 от 10.06.2004 «Метод распознавания диктора и устройство для его осуществления».

47. Колере, П.А. Распознавание образов. Исследование живых и автоматических распознающих систем Текст./ П.А. Колере, Е.Д. Мюрей, пер. Л.И. Титомира М.: «Мир», 1970. - 288 с.

48. Коротаев, Г.А. Системы анализа и синтеза речевого сигнала с линейным предсказанием Текст. / Г.А. Коротаев // Зарубежнаярадиоэлектроника. 1976. - № 10. - С.3-14.159

49. Коротаев, Г.А. Некоторые аспекты линейного предсказания при анализе речевого сигнала Текст. / Г.А. Коротаев // Зарубежная радиоэлектроника. -1991.-№7.-С.13-31.

50. Лабутин, В. К. Модели механизмов слуха Текст. / В.К. Лабутин, А. П. Молчанов. М.: Энергия, 1973. - 200 с.

51. Ле, Н.В. Распознавание речи на основе искусственных нейронных сетей Текст. / Н.В. Ле, Д.П. Панченко // Технические науки в России и за рубежом: материалы междунар. заоч. науч. конф- Москва. 2011. - С.8-11.

52. Леонович, A.A. Современные технологии распознавания речи Текст. /A.A. Леонович // Материалы конференции «Диалог: Компьютерная лингвистика и интеллектуальные технологии». Звенигород. - 2005.

53. Ли, У.А. Методы автоматического распознавания речи. Текст. В 2-х книгах. Кн.1. / Пер. с англ./Под ред. У.Ли. М.; Мир, 1983. -328 с.

54. Ли, У.А., Методы автоматического распознавания речи. Текст. В 2-х книгах. Кн.2. /Пер. с англ. Под ред. У.Ли. М.; Мир, 1983. - 392 с.

55. Лузин, Д.А. Разработка и исследование системы автоматического выделения основного тона речи Текст.: автореф. дис. канд. техн. наук /Д.А. Лузин. Ижевск, 2009. - 26с.

56. Мазуренко, И.Л. Компьютерные системы распознавания речи Текст. / И.Л. Мазуренко // Интеллектуальные системы. Москва. - 1998. -т.З.вып. 1-2.-С.117-134.

57. Мазуренко, И.Л. Одна модель распознавания речи Текст. / И.Л. Мазуренко // Компьютерные аспекты в научных исследованиях и учебном процессе. -Москва 1996 - С. 107-112.

58. Маркел, Дж.Д. Линейное предсказание речи Текст. /Дж.Д. Маркел, А.Х. Грэй. Пер. с англ. Под ред. Ю.Н. Прохорова М.: Связь, 1980-308с.

59. Матвеев, Ю.Н. Система идентификации дикторов по голосу для конкурса NIST SRE 2010/ Ю.Н. Матвеев, К.К. Симончик // 20я

60. Международная Конференция по Компьютерной Графике и Зрению. Санкт-Петербург. - 2010. - С.35-39.

61. Ниценко, A.B. Алгоритмы пофонемного распознавания слов наперед заданного словаря Текст. / A.B. Ниценко, В.Ю. Шелепов // Искусственный интеллект. 2004. - С.633-639.

62. Новиков, JI.A. Современный русский язык Текст. / JI.A. Новиков, Л.Г. Зубкова, В.В. Иванов и др. под общей ред. JI.A. Новикова СПб.: «Лань», 1999. - 865 с.

63. Питмен, Э. Основы теории статистических выводов Текст. /Э. Питмен // Пер. с англ. М.: Мир, 1986. - 104с.

64. Прохоров, Ю.Н. Рекуррентное оценивание параметров речевых сигналов Текст. / Ю.Н. Прохоров М.: Наука, 1977. - С.67-80.

65. Рабинер, Л. Теория и применение цифровой обработки сигналов /Л.Рабинер, Б.Гоулд М.: Мир, 1978. - 848с.

66. Рабинер, Л.Р. Цифровая обработка речевых сигналов Текст./ Л.Р. Рабинер, Р.Ф. Шафер М.: Радио и связь, 1981. - 496 с.

67. Савченко, В.В. Различение случайных сигналов в частотной области Текст. /В.В. Савченко // Радиотехника и электроника. 1997. - Т.42, №4. - С.426-429.

68. Сапожков, М.А. Вокодерная связь Текст./ М.А. Сапожков, В.Г. Михайлов М.: «Радио и связь», 1983. - 248 с.

69. Сорокин, В.Н. Артикуляторно-ориентированная система распознавания речи текст. / В.Н. Сорокин, А.Н. Ижнин, А.И. Цыплихин, Д.Н. Чепелев // Труды Международного семинара «Диалог 2003». - 2003. С.657-662.

70. Сорокин, В.Н. Модель многослойного первичного анализа речевых сигналов Текст. / В.Н. Сорокин // Труды 13-й сессии Российского акустического общества. 2003. - С. 11-16.

71. Сорокин, В.Н. Первичный анализ речевых сигналов Текст. / В.Н.

72. Сорокин, Д.Н. Чепелев // Акустический ж. 2005. - Т.51, №4. - С.536-542.161

73. Сорокин, В.Н. Сегментация и распознавание гласных Текст. / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. 2004. - Т.4, №2. - С. 202-220.

74. Сорокин, В.Н. Сегментация речи на кардинальные элементы Текст. / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. -2006. Т.6, №3. - С. 177-207.

75. Сорокин, В.Н. Синтез речи Текст. / В.Н.Сорокин. М.: Наука, 1992.-392 с.

76. Сорокин, В.Н. Теория речеобразования Текст. / В.Н. Сорокин -М.: Радио и связь, 1985. 312 с.

77. Фант, Г. Акустическая теория речеобразования Текст. / Г. Фант -М.:Наука, 1964.-304 с.

78. Фирсова, A.A. Компьютерное моделирование алгоритмов обнаружения пауз в IP-телефонии Текст. / H.A. Чеканов, A.A. Фирсова // Журнал «Вопросы радиоэлектроники». Сер. «Электронная вычислительная техника» (ЭВТ). 2011г. - С.72-82.

79. Фирсова, A.A. О возможности использования особенностей распределения энергии по частотным диапазонам в задачах сегментации речевых сигналов Текст. /A.A. Фирсова, М.В. Фатова // Материалы 13-ой

80. Международной конференции и выставки «ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ и ЕЁ ПРИМЕНЕНИЕ-DSPА'2011». Москва. 2011. - С.255-258.

81. Фирсова, A.A. О различиях распределения энергии звуков русской речи и шума Текст. / A.B. Болдышев, A.A. Фирсова// Материалы 12-ой Международной конференции и выставке «ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ и ЕЁ nPHMEHEHHE-DSPA'2010». Москва. - 2010. - С.204-207.

82. Фланаган, Дж. Л. Анализ, синтез и восприятие речи Текст./ пер.с англ. A.A. Пирогова. М.:Связь, 1968. - 397с.

83. Чистович, Л.А. Физиология речи. Восприятие речи человеком Текст. /Л.А. Чистович, А.И. Венцов, М.П. Гранстрем и др. М.: Наука, 1976. -388 с.

84. Шанский, Н.М. Современный русский язык: Учеб. для пед. ун-тов Текст./ Н.М. Шанский, В.В. Иванов М.: «Просвещение», 1987. - 192 с.

85. Шелепов, В.Ю. Амплитудная сегментация речевого сигнала, использующая фильтрацию и известный фонетический состав Текст./ В.Ю. Шелепов, A.B. Ниценко // Искусственный интеллект. 2003. - №3. - С.421-426.

86. Шелепов, В.Ю. К проблеме пофонемного распознавания Текст. /

87. B.Ю. Шелепов, А.В. Ниценко // Искусственный интеллект. 2005. - №4.1. C.662-668.

88. Шелухин, О.И. Цифровая обработка и передача речи Текст. / О.И. Шелухин, Н.Ф.Лукьянцев; под ред. О.И. Шелухина. М.: Радио и связь, 2000. - 456с.

89. Atal S. Speech Analysis and Synthesis by Linear Prediction of the Speech Wave Текст. / S. Atal, S. L. Hanauer-New York, 1971.

90. Bridle J. An efficient elastic template method for detecting given words in running speech/ J. Bridle British Acoustical Society Meeting, Apr. - 1973.

91. Couvreur Chr. Hidden Markov Models and Their Mixtures / Chr. Couvreur DEA Thesis, Department of Mathematics, Catholic University of Louvain. - 1996.

92. Hazen T. Recognition confidence scoring and its use in speech understanding systems/ T.Hazen Computer Speech and Language. - 2002.

93. Higgins A. Keyword recognition using template concatenation. Acoustics, Speech, and Signal Processing/ A. Higgins IEEE International Conference onlCASSP, 1985.

94. Jim Kaiser. On a simple algorithm to calculate the 'energy' of a signal// IEEE ICASSP 1990, pp 381-384

95. Portnov, M.R. A Quasi-One-Dimensional Digital Simulation for the Time-Varying Vocal Tract, M.S. Thesis, Dept. of Elect. Engr., MIT, Cambridge, Mass., June 1973.

96. Rabiner L. R. A tutorial on Hidden Markov Models and selected applications in speech recognition/ L. R. Rabiner. Proceedings of the IEEE. -1989.

97. Rebecca Fiebrink. An Exploration of then Teager Operator// MUMT 605, 2004.

98. Reynolds D. Experimental evaluation of features for robust speaker identification. IEEE Trans. On Speech and Audio Processing, 1994, vol. 2, №4, p.p. 639-643.

99. Rosenberg E. Effect of Glottal Pulse Shape on the Quality of Natural Vowels Текст. / E. Rosenberg. New York, 1971.

100. Rosti I. Linear gaussian models for speech recognition /1. Rosti. PhD thesis, University of Cambridge. - 2004.

101. Ф 0,23 0,25 0,27 0,29 0,31 0,34 0,37 0,41 0,48 0,59

102. X 0,17 0,17 0,18 0,19 0,20 0,21 0,23 0,26 0,30 0,40высокие шумные согласные

103. Ф 0,19 0,21 0,22 0,24 0,26 0,29 0,33 0,37 0,43 0,54

104. Ф 0,16 0,17 0,19 0,21 0,23 0,26 0,30 0,34 0,41 0,51

105. X 0,08 0,08 0,09 0,10 0,11 0,12 0,14 0,16 0,19 0,27высокие шумные согласные

106. Ф 0,20 0,23 0,25 0,29 0,33 0,37 0,43 0,49 0,55 0,58

107. Ф 0,32 0,36 0,42 0,48 0,54 0,62 0,71 0,82 0,94 1,04

108. Ф 0,96 1,09 1,25 1,43 1,65 1,90 2,22 2,61 3,05 3,41

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат технических наук Фирсова, Александра Александровна

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Модели и алгоритмы в системах анализа речевых сигналов2013 год, кандидат технических наук Трубицын, Владимир Геннадьевич

Введение диссертации (часть автореферата) на тему «Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов»

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Сегментация речевых сигналов для задач автоматической обработки речи2017 год, кандидат наук Томчук, Кирилл Константинович

Модель и алгоритмы анализа и сегментации речевого сигнала2007 год, кандидат технических наук Конев, Антон Александрович

Заключение диссертации по теме «Теоретические основы информатики», Фирсова, Александра Александровна

Список литературы диссертационного исследования кандидат технических наук Фирсова, Александра Александровна, 2013 год