Алгоритмы поиска ключевых слов в радиотехнических устройствах обработки речевой информации, устойчивые к воздействию мешающих факторов тема диссертации и автореферата по ВАК РФ 05.12.04, кандидат наук Баландин, Иван Васильевич

  • Баландин, Иван Васильевич
  • кандидат науккандидат наук
  • 2013, Рязань
  • Специальность ВАК РФ05.12.04
  • Количество страниц 179
Баландин, Иван Васильевич. Алгоритмы поиска ключевых слов в радиотехнических устройствах обработки речевой информации, устойчивые к воздействию мешающих факторов: дис. кандидат наук: 05.12.04 - Радиотехника, в том числе системы и устройства телевидения. Рязань. 2013. 179 с.

Оглавление диссертации кандидат наук Баландин, Иван Васильевич

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

1 РАЗРАБОТКА АЛГОРИТМОВ ПЕРВИЧНОЙ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА, УСТОЙЧИВЫХ К ИЗМЕНЕНИЮ ГОЛОСА ДИКТОРА И ВОЗДЕЙСТВИЮ МЕШАЮЩИХ ФАКТОРОВ

1.1 Вводные замечания

1.2 Формирование вектора первичных признаков речевого сигнала, устойчивых к изменению голоса диктора и воздействию мешающих факторов

1.2.1 Алгоритм адаптации параметров квантователя с выделителем пауз речевого сигнала

1.2.2 Обоснование выбора базиса представления речевого сигнала для обеспечения устойчивости алгоритмов обработки речевых сигналов при воздействии мешающих факторов

1.2.3 Адаптация параметров непрерывного вейвлет преобразования к изменению голоса диктора

1.2.4 Алгоритм оценки частоты основного тона

1.3 Алгоритм сегментации речевых сигналов

1.3.1 Классификация звуков речи 5

1.3.2 Обоснование выбора структурной единицы речи

1.3.3 Разработка алгоритма сегментации речевых сигналов на акустические однородные участки речи на основе комбинированной системы статических и динамических признаков

1.4 Выводы

2 ОБОСНОВАНИЕ ДИКТОРОНЕЗАВИСИМОГО АЛГОРИТМА АВТОМАТИЧЕСКОГО ПОИСКА КЛЮЧЕВЫХ СЛОВ В ПОТОКЕ СЛИТНОЙ РЕЧИ НА ОСНОВЕ МОДИФИЦИРОВАННОЙ ГИБРИДНОЙ МОДЕЛИ РЕЧЕВОСПРИЯТИЯ

2.1 Вводные замечания

2.2 Анализ современных алгоритмов автоматического поиска ключевых слов

2.2.1 Представление задачи автоматического поиска ключевых слов

2.2.2 Анализ возможности построения алгоритма автоматического дикторонезависимого поиска ключевых слов в потоке слитной речи

на имеющихся моделях

2.3 Анализ работы алгоритма поиска ключевых слов на основе модифицированной гибридной модели в потоке слитной речи

2.3.1 Представление задачи автоматического поиска ключевых слов в терминах скрытых марковских моделей

2.3.2 Анализ возможности явного моделирования акустического окружения для обеспечения работы алгоритма поиска ключевых слов на основе гибридной модели в потоке слитной речи

2.3.3 Обоснование введения акустического контекста в алгоритм поиска ключевых слов в потоке слитной речи на основе модифицированной гибридной модели речевосприятия

2.4 Увеличение дикторонезависимости алгоритма поиска ключевых слов в потоке слитной речи на основе модифицированной гибридной модели

2.4.1 Моделирование изменчивости речевого сигнала во временной области в алгоритме дикторонезависимого поиска ключевых слов

2.4.2 Кодирование первичных элементов речи в целях обеспечения дикторонезависимости алгоритма поиска ключевых слов на основе модифицированной гибридной модели

2.5 Выводы

3 ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ ДИКТОРОНЕЗАВИСИМОГО АЛГОРИТМА АВТОМАТИЧЕСКОГО ПОИСКА КЛЮЧЕВЫХ СЛОВ В ПОТОКЕ СЛИТНОЙ РЕЧИ

3.1 Вводные замечания

3.2 Исследование возможности реализации автоматического алгоритма оценки параметров скрытой марковской модели

3.2.1 Разработка алгоритма автоматической оценки параметров скрытой марковской модели

3.2.2 Экспериментальное исследование автоматического алгоритма оценки параметров скрытой марковской модели

3.3 Оптимизация параметров предложенного алгоритма поиска ключевых слов на основе модифицированной гибридной модели

3.3.1 Разработка алгоритма вычисления прямой переменной на основе искусственной нейронной сети

3.3.2 Разработка алгоритма оптимизации параметров предложенного алгоритма поиска ключевых слов на основе модифицированной гибридной модели

3.3.3 Экспериментальное исследование алгоритма оптимизации параметров предложенной модифицированной гибридной модели

3.4 Анализ возможности аппаратной реализации алгоритма поиска ключевых слов в потоке слитной речи

3.4.1 Оценка вычислительных затрат

3.4.2 Анализ аппаратной реализации алгоритма автоматического поиска ключевых слов в потоке слитной речи

3.5 Выводы 146 ЗАКЛЮЧЕНИЕ 147 СПИСОК ЛИТЕРАТУРЫ 150 ПРИЛОЖЕНИЕ А

Список аббревиатур и условных сокращений

ПРИЛОЖЕНИЕ В

Методика обработки и перечень акустического материала использованного при обучении и тестировании дикторонезависимого алгоритма автоматического поиска ключевых слов в потоке слитной речи

ПРИЛОЖЕНИЕ С

Копии актов о внедрении результатов диссертационной работы

Рекомендованный список диссертаций по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК

Введение диссертации (часть автореферата) на тему «Алгоритмы поиска ключевых слов в радиотехнических устройствах обработки речевой информации, устойчивые к воздействию мешающих факторов»

ВВЕДЕНИЕ

Актуальность темы. Разработка алгоритмов поиска ключевых слов в потоке слитной речи является одной из наиболее сложных задач в области обработки речевой информации и требует использования особых методов повышения показателей качества радиотехнических устройств. Наиболее существенный вклад в развитие теории речеобразования и методов обработки, передачи и распознавания речевых сигналов (PC) внесли работы М.А. Сапожкова, A.A. Пирогова, Т.К. Винцюка, М.В. Назарова, Ю.Н. Прохорова, В.Н. Сорокина, JI.B. Златоустовой, В.Г. Михайлова, Р.В. Гудонавичюса, Ю.К. Калинцева [1...8], а также работы Дж.Д. Маркела, JI.P. Рабинера, Р.В. Шафера, Дж.Д. Фланагана, Г. Фанта, А.Х. Грея, У. Ли, Дж.Р. Доддингтона, С.Е. Левинсона и др. [9...13].

Технологии поиска ключевых слов лежат в основе радиотехнических устройств голосового управления, интерактивного телевидения, аудиоиндексации, поиска речевой информации по образцу в мультимедиа-архивах, автоматического контроля речевых сообщений в системах безопасности и т.д. К алгоритмам автоматического поиска ключевых слов (ААПКС) предъявляют ряд специфических требований [14], выделяющих их в отдельный класс систем автоматического распознавания речи (АРР), таких как:

- малый объем словаря;

- работа в потоке спонтанной слитной речи;

- дикторонезависимость;

- обработка речи с выраженными дефектами;

- повышенные требования к использованию вычислительных и аппаратных ресурсов.

В ряде основных проблем существующих при разработке алгоритмов первичной обработки речевой информации и поиска ключевых слов, наиболее актуальными являются:

1) определение информативной системы акустических параметров первичных элементов речи, устойчивой к изменению голоса диктора и воздействию акустических помех;

2) уменьшение влияния вариативности речи на показатели качества радиотехнических устройств обработки речевой информации и поиска ключевых слов;

3) повышение вычислительной эффективности алгоритмов формирования первичных признаков РС и поиска ключевых слов в интересах обеспечения дикторонезависимой обработки в реальном масштабе времени при заданном объёме словаря.

Основные трудности при разработке ААПКС связаны с вариативностью акустических параметров, характеризующих один и тот же фонетический элемент [15... 17]. Для снижения вычислительных затрат при обработке речевой информации могут использоваться алгоритмы вейвлет-анализа [18], позволяющие обеспечить дикторонезависимость алгоритмов и компактное хранение эталонов, но особенности построения быстрых алгоритмов не позволяют использовать психофизические свойства слуховой системы человека, что значительно снижает качество формируемого пространства признаков в интересах построения ААПКС.

Впервые задача ААПКС была сформулирована в 40-е годы прошлого века [13] , но разработанные алгоритмы обладали низкой эффективностью и надежностью. Несмотря на предъявляемые специфические требования, в настоящее время задача поиска ключевых слов, в основном, решается системами АРР, также не обладающими заданной эффективностью. Известны различные методы АРР, но в последнее время основным стал метод сопоставления с эталоном на основе вероятностных моделей [19...22]. Главным образом это связано с прогрессом в области электронных компонентов, в частности с увеличением вычислительной мощности процессоров и объемов памяти. При этом нерешенными остались вопросы, связанные с работой

ААПКС в условиях акустических шумов, обеспечением работы в потоке слитной речи, а также адаптацией к изменению голоса диктора.

Поиск ключевых слов по методу сопоставления с эталоном определяет необходимость решения задачи хранения эталонов, которая усугубляется необходимостью увеличения числа хранимых образцов в целях обеспечения дикторонезависимости.

Кроме того, разработка ААПКС требует решения проблемы создания и обучения моделей ключевых слов, для решения которой не существует аналитических способов. Применение известных итеративных алгоритмов [20] обусловливает необходимость обоснования оптимального критерия качества обучения.

Таким образом актуальна задача разработки новых дикторонезависимых моделей и алгоритмов предварительной обработки РС, формирования признаков и решающих алгоритмов в интересах повышения надежности и эффективности радиотехнических устройств поиска ключевых слов в потоке речевой информации.

Цель работы. Основной целью диссертационной работы является разработка алгоритма автоматического дикторонезависимого поиска ключевых слов в потоке слитной речи, обеспечивающего повышение показателей надежности обнаружения при воздействии мешающих факторов.

Поставленная цель работы включает решение следующих задач:

• исследовать методы нормирования РС по амплитуде в целях повышения устойчивости ААПКС к изменению уровня РС;

• обосновать выбор базиса представления РС для обеспечения устойчивости алгоритмов обработки речевых сигналов ААПКС к воздействию мешающих факторов;

• предложить процедуру адаптации базиса представления РС в интересах повышения робастных свойств ААПКС к изменению голоса диктора;

• разработать алгоритм обработки РС, устойчивый к воздействию мешающих факторов, включающий оценку частоты основного тона (ОТ) и сегментацию непрерывного РС на речевые единицы;

• проанализировать возможность явного моделирования акустического окружения в целях обеспечения работы ААПКС в потоке слитной речи и уменьшения расхода вычислительных ресурсов;

• обосновать введение акустического контекста в алгоритм поиска ключевых слов в потоке слитной речи для повышения робастных свойств ААПКС;

• проанализировать процедуру явного моделирования изменчивости РС во временной области в интересах увеличения устойчивости ААПКС к изменению голоса диктора;

• определить возможности сокращения вычислительных затрат и уменьшения требуемого объема памяти для хранения эталонов в целях обеспечения дикторонезависимости;

• разработать автоматический алгоритм обучения предложенного ААПКС;

• проанализировать возможность аппаратной реализации ААПКС.

Методы проведения исследований. В работе использовались методы

статистической радиотехники и математической статистики, распознавания образов, динамического программирования, кластерного анализа, вычислительной математики, а также новые достижения в области цифровой обработки речевой информации. Данные теоретические методы сочетались с экспериментальными исследованиями на основе имитационного моделирования разработанных алгоритмов.

Научная новизна. В рамках диссертационной работы были получены следующие новые научные результаты:

1. Разработан алгоритм формирования первичных признаков РС на основе непрерывного вейвлет преобразования (НВП) с адаптацией вейвлет фильтра (ВФ) к изменению голоса диктора на основе оценки частоты основного

тона (ОТ), обеспечивающий повышение робастных свойств ААПКС в условиях воздействия мешающих факторов.

2. Разработан алгоритм адаптивной сегментации непрерывного РС,

основанный на использовании модифицированной фонетической функции речи

/

(ФФР) А.А.Пирогова, позволяющий уменьшить вероятность ложной сегментации и тем самым снизить вычислительные затраты на работу ААПКС.

3. Предложен ААПКС на основе модифицированной гибридной модели речевосприятия, использующий акустический контекст и явное моделирование акустического окружения для обеспечения работы в потоке слитной речи и снижения вычислительных затрат на поиск границ ключевого слова.

Достоверность. Достоверность результатов и выводов полученных в диссертационной работе обеспечивается корректностью численных экспериментов, качественным и количественным сопоставлением с известными положениями теории обработки и распознавания РС.

Практическая ценность. Представленные в работе алгоритмы . предварительной обработки и распознавания РС могут быть использованы в таких радиотехнических устройствах, как системы передачи и хранения речевой информации, системы голосового управления, информационно-справочные системы, медицинские системы диагностики, системы автоматической идентификации и верификации информанта по голосу, системы криминалистической фоноскопии, системы конфиденциального доступа и закрытия речевой информации, системы открытого образования для лиц с ограниченными возможностями здоровья и т.д. Результаты диссертационной работы нашли применение в действующей системе автоматического контроля безопасности связи войсковой части 67240 и в учебном процессе военной кафедры ФГБОУ ВПО «Комсомольский-на-Амуре государственный технический университет», что подтверждается соответствующими актами внедрения.

Основные положения, выносимые на защиту:

1. Алгоритм формирования вектора первичных признаков РС, включающий НВП РС с адаптацией ВФ к изменению голоса диктора и адаптивную сегментацию артикуляционных событий РС на основе модифицированной ФФР А.А.Пирогова, применение которого позволило уменьшить вероятность ложной сегментации с 0,15 до 0,08 при вероятности правильной сегментации 0,92 в случае ОСШ 20 дБ.

2. Процедура обеспечения работы ААПКС в потоке слитной речи с явным моделированием акустического окружения с помощью состояния заполнителя, позволяющая исключить из алгоритма этап поиска границ ключевого слова и уменьшить расход вычислительных ресурсов в шесть раз.

3. Модифицированная гибридная модель речевосприятия с использованием акустического контекста, обеспечивающая увеличение вероятности правильного обнаружения на 0,05 и снижение вероятности ложного обнаружения на 0,02 по сравнению с известными системами. При этом средняя вероятность правильного обнаружения, после оптимизации, составила 0,98, а средняя вероятность ложного обнаружения - 0,05.

Апробация работы. Результаты работы докладывались на следующих научно-технических конференциях (НТК), семинарах и сессиях:

1. Научная сессия МИФИ -2008 г., 2009 г., г. Москва.

2. 15-я МНТК «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций». 2008 г., г. Рязань.

3. Всероссийская НТК "Биотехнологические, медицинские и экологические системы и комплексы. Биомедсистемы -2009". г. Рязань, 2009.

4. 14 - 16-я Всероссийская НТК студентов, молодых ученых и специалистов "Новые информационные технологии в научных исследованиях и образовании". 2009, 2010, 2011 гг., г. Рязань.

Публикации. По теме диссертации опубликовано 11 работ. 2-е статьи в научно-технических журналах, рекомендованных ВАК, и 9 тезисов докладов на конференциях.

Структура и объем работы. Диссертационная работа состоит из введения, трех глав, заключения, списка литературы из 145 наименований и 3-х приложений. Диссертация содержит 130 с. основного текста, 11 таблиц и 42 рисунка.

Благодарности. Выражаю свою искреннюю признательность научному руководителю Сергею Николаевичу Кириллову за неоценимую помощь и серьёзную моральную поддержку, оказанные автору в процессе работы над диссертацией. Благодарю своих коллег, преподавателей, сотрудников, аспирантов и молодых учёных кафедры радиоуправления и связи за высказанные замечания, конструктивные обсуждения, содействие и помощь в работе. Выражаю особую признательность своим родным и близким за предоставленную возможность заниматься научной деятельностью. Хочу выразить отдельную благодарность моей супруге за моральную поддержку и терпение.

1 РАЗРАБОТКА АЛГОРИТМОВ ПЕРВИЧНОЙ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА, УСТОЙЧИВЫХ К ИЗМЕНЕНИЮ ГОЛОСА ДИКТОРА И ВОЗДЕЙСТВИЮ МЕШАЮЩИХ ФАКТОРОВ

1.1 Вводные замечания

До настоящего времени задача поиска ключевых слов решалась системами APP. Однако постановка задачи распознавания речевых образов, методика исследования и практические выводы, полученные в ряде работ [1,7], существенно различаются. Тенденции в развитии систем АРР свидетельствуют об усложнении используемого математического аппарата при более точном анализе особенностей PC в интересах решения задачи поиска ключевых слов.

Используемые методы основывались на анализе огибающей спектра, определенной по небольшому числу спектральных полос. При этом считалось, что звуки речи являются однородными, стабильными и устойчивыми единицами. Но достигаемая при этом достоверность распознавания была недостаточной для каких-либо практических приложений. Дальнейшие исследования [6,15... 18] не подтвердили гипотезу об однородности фонетических единиц речи.

Эффективность ААПКС во многом зависит от точности выделения и надежности признаков на акустико-фонетическом уровне [15], на котором производится фонетическая маркировка PC. При этом каждый выделенный сегмент относят к некоторой фонетической единице. Как известно [6,14], одной из особенностей речевой информации является значительная изменчивость темпа, которая выражается в невоспринимаемых на слух флуктуациях продолжительности звуков речи, их участков и пауз. Для решения проблемы изменения темпа речи обычно используется разбиение непрерывного PC на равные сегменты, в пределах которых заданные параметры речи изменяются незначительно. Каждому сегменту ставится в соответствие система выбранных

признаков и сравнивается с набором эталонов с помощью различных методов [1,6,7,19...22].

Такие системы обеспечивают высокую достоверность распознавания речи одного диктора при снижении качества распознавания в случае других дикторов. Более эффективным является подход [16,23], основанный на выделении последовательности квазистационарных и переходных сегментов отдельных звуков различной длительности. В рамках данного подхода хорошо изучены методы выделения гласных звуков [6,18,24].

В работах [16,23] отмечена несостоятельность анализа PC по фонетическим значениям отдельных звуков. Предложено использовать представление речи в виде дифференциальных характеристик, основанных на фонетической функции речи (ФФР) A.A. Пирогова [23]. Полученные при этом признаки являются инвариантными к амплитудно-частотным параметрам каналов связи и наиболее полно характеризуют особенности речевосприятия человеком. Подобный подход эффективно применялся при распознавании дифонов [16,23]. Более того, дифференциальные параметры позволяют формировать семантический код речи, обладающий свойством корректирующего кода [15].

В дикторонезависимых ААПКС наиболее острой является проблема разработки алгоритмов, инвариантных к голосовым вариациям различных дикторов [1,7]. Как было показано в работах [13,16,19,22], существенное влияние на эффективность распознавания оказывает фактор вариативности речи, связанный с индивидуальными особенностями и эмоциональным состоянием говорящего человека. Решение данной проблемы обычно сводится к увеличению количества эталонов и использованию мощных высокопроизводительных вычислительных комплексов, что существенно ограничивает возможности практического использования речевой человеко-машинной связи [14,24]. Тем не менее, в последнее время значительный интерес вызывают ААПКС с использованием словаря, составленного из набора фонетических единиц речи [24].

Алгоритмы распознавания первичных элементов речи могут быть использованы и для определения патологии гортани [28]. Действительно, в РС содержатся сведения о функционировании всего голосового аппарата, поэтому возможна разработка алгоритмов выделения признаков для диагностики заболеваний речевого тракта.

В связи с вышеизложенным в данной главе рассматривается следующий ряд задач:

• исследовать метод нормирования РС по амплитуде в целях повышения устойчивости ААПКС к изменению уровня РС;

• обосновать выбор базиса представления речевой информации для обеспечения устойчивости алгоритмов обработки РС к воздействию мешающих факторов;

• предложить процедуру адаптации базиса представления РС в интересах повышения робастных свойств ААПКС к изменению голоса диктора;

• разработать алгоритм оценки частоты основного тона устойчивый к воздействию мешающих факторов;

• обосновать выбор структурной единицы речи;

• разработать алгоритм сегментации непрерывного РС.

1.2 Формирование вектора первичных признаков речевого сигнала, устойчивых к изменению голоса диктора и воздействию мешающих факторов

1.2.1 Алгоритм адаптации параметров квантователя с выделителем пауз речевого сигнала

Эффективным методом обеспечения постоянного отношения сигнал-шум (ОСШ) квантования в широком диапазоне дисперсий РС является адаптация свойств квантователя к уровню РС, называемая адаптивной импульсно-кодовой

модуляцией (АИКМ) [10,29]. Применение АИКМ позволяет уменьшить ошибки распознавания, связанные с изменением уровня громкости голоса диктора.

Практическое применение нашел способ реализации АИКМ, при котором характеристики квантователя не меняются, а изменяется обратно пропорционально среднеквадратическому отклонению (СКО) PC коэффициент передачи G(n) усилителя на входе квантователя.

Адаптация свойств квантователя к изменяющейся дисперсии PC может быть мгновенной или слоговой, в зависимости от того, какое число отсчетов используется для оценки дисперсии PC. Схемы АИКМ могут включать системы адаптации по входу, если оценка дисперсии PC производится непосредственно по входному сигналу s(t), или по выходу, когда коэффициент передачи подстраивается в соответствии с изменением выходной последовательности отсчетов PC s(n) [10,29].

Системы адаптации различаются и по способу вычисления управляющего параметра [29]. Наиболее часто применяется АИКМ, в которой коэффициент передачи усилителя определяется выражением

G(n) = GJa5{n\ (1.1)

где G0 - постоянный коэффициент, зависящий от характеристик применяемых

микрофона и аналогово-цифрового преобразователя (АЦП); cr2s (п) - дисперсия PC, которая оценивается из соотношения

и-1

М= £s2(m)h(n-m), (1.2)

m=-оо

где hin) - импульсная характеристика фильтра.

Для удобства расчетов импульсная характеристика фильтра обычно выбирается в виде [10]

(1.3)

0,п<0,

где а - коэффициент импульсной характеристики. В этом случае расчет <у](п) производится из рекуррентного выражения

<7* (л) = (П - 1) + 52 (п - 1). (1.4)

Для уменьшения вычислительных затрат в [29,30] предложено использовать управляющий параметр в виде

gG (п) = (п-1) +1 -1)|, (1.5)

где - управляющий параметр; аС} - коэффициент импульсной

характеристики управляющего параметра, тогда коэффициент передачи усилителя определяется выражением

О{п)=001§0{п). (1.6)

При этом способе не требуется производить операции возведения в квадрат, как в случае выражения (1.4), и взятия квадратного корня.

Пределы изменения О (л) задают исходя из динамического диапазона РС в 40 дБ.

Для сохранения временной структуры РС при выборе значения аа необходимо учитывать постоянную времени слуха, составляющую для восприятия звука 200...250 мс [14], что соответствует 1600...2000 отсчетов при частоте дискретизации 8000 Гц. Путем несложных вычислений получено значение аа =0,994.

Но практическое применение данного способа нормирования РС в системе поиска ключевых слов сталкивается с определенными трудностями, связанными с характером речи человека в диалоге, где до 60 % времени составляют паузы [6], что может привести к значительному возрастанию коэффициента передачи (1.6) во время паузы РС. Ограничение изменения 0(п) во время паузы РС позволит избежать перегрузки АЦП в начале речевой

активности и, следовательно, уменьшить ошибки в представлении РС. Предварительную сегментацию на речь и паузы можно использовать для уменьшения объема вычислений, если обрабатывать только сегменты с наличием речевой активности.

Задача определения моментов начала и окончания фразы при наличии шума является одной из важных задач в области обработки речи. Алгоритмы её решения постоянно совершенствуются. Так в [10] предложено использовать два подстраиваемых порога и подсчет числа переходов РС через ноль, а в [31] алгоритм обладает возможностью адаптации отдельных порогов для зашумленной и незашумленной речи в реальном времени, но эти методы показывают низкую эффективность при значительном изменении ОСШ.

Для улучшения робастных свойств в условиях сильных акустических помех в [32] РС разбивался на 2 частотные полосы, и решение о наличии активности принималось по адаптивным порогам, вычисляемым раздельно для каждой полосы. В детекторе речевой активности систем подвижной радиосвязи [33] РС разбивается на кадры длительностью 20 мс и предварительно обрабатывается адаптивным фильтром. Адаптивный порог вычисляется во время паузы РС, определяемой по спектральным характеристикам РС, а решение принимается для всего кадра РС.

Предложено [30] для снижения вычислительных затрат и обеспечения робастных свойств алгоритма выделения пауз РС ввести второй канал вычисления управляющего параметра g¡ {п) в соответствии с выражением (1.5) с коэффициентом импульсной характеристики а1. Параметр (п) представляет собой среднее значение РС [10], взвешенное окном, длительность и форма которого определяются импульсной характеристикой фильтра (1.3). Обнаружение речевой активности происходит при превышении значения gl (п) адаптивного порога gQ. Уменьшить вероятность ложного обнаружения речевой активности при флуктуациях шума пауз можно, ограничив минимальную

продолжительность речевого сегмента до 5 мс, что меньше длительности самых коротких звуков речи [6].

Для уменьшения ошибки оценки границ участков речевой активности при изменении интенсивности РС адаптация порога gQ осуществляется во время паузы РС в соответствии с выражением

g0 = maxgl(n), п = пн,пк, (1.7)

где пн,пк - отсчеты начала и окончания паузы соответственно.

Пауза определяется как стационарный участок РС [10,33], характеризуемый незначительными, но частыми изменениями уровня, обусловливаемыми наличием шума [10]. Это позволяет классифицировать паузу по числу пересечений дискретных функций управляющих параметров gG(ri)и gl{n) и дает возможность устранить недостаток метода определения , пауз по пересечению нуля, связанный с наличием медленных изменений сигнала [10].

Для исключения возможности ошибочной классификации продолжительных звуков речи, обладающих свойствами стационарности, как в случае пауз, количество пересечений определяется на участке РС длительностью 250 мс, что соответствует длительности самой продолжительной гласной [14]. Для уменьшения вероятности ложного решения о стационарности участка РС интервал разбивается на 4 подынтервала длительностью 65 мс, в каждом из которых определяется количество пересечений дискретных функций управляющих параметров N2, а решение о стационарности участка РС принимается при выполнении условия стационарности в каждом из 4 интервалов. Количество пересечений зависит от значений коэффициентов импульсной характеристики ас и а1 и определяется экспериментально.

Структурная схема предложенного алгоритма адаптации параметров квантователя с выделителем пауз РС [30] представлена на рисунке 1.1.

Рисунок 1.1 - Структурная схема алгоритма адаптации параметров квантователя с выделителем пауз РС

РС з(1) усиливается адаптивным усилителем и поступает на вход АЦП. Значения управляющих параметров gG(n)и gl{n) рассчитываются в соответствии с выражением (1.5) при значениях коэффициентов импульсной характеристики фильтра ас - 0,994 и а1 = 0,95, определенных экспериментально.

Управляющий параметр используется для вычисления

коэффициента передачи адаптивного усилителя в соответствии с выражением (1.6). Решающее устройство 1 при превышении управляющим параметром gl(n) адаптивного порога g0 принимает решение о наличии речевой активности. Детектор длительности вычисляет продолжительность участка речевой активности и, если она меньше 5 мс, что составляет длительность самых коротких звуков речи [14], блокирует принятие решения о наличии речи.

Счетчик пересечений дискретных функций управляющих параметров gG(n)и gl(ri) подсчитывает число пересечений за время подынтервала длительностью 65 мс и сохраняет информацию о последних 4 подынтервалах.

Решающее устройство 2 принимает решение о стационарности РС по наличию минимум 4-х пересечений в каждом из подынтервалов. Во время нестационарного участка фиксируется значение для ограничения

усиления РС во время продолжительной паузы.

Для оценки качества работы, оптимизации значений коэффициентов импульсной характеристики а0 и а1 [30] проведено экспериментальное исследование предложенного алгоритма адаптации. Запись, обработка речевого материала в виде 200 записей производились по методике, приведенной в приложении В.

Эффективность качества адаптации определялась по величине выигрыша в динамическом диапазоне РС

Г)Ь = (Апах - Апт ) ~ (^атах " Атт ) Д5' С1 8)

где Ьатах,А»шп - соответственно максимальный и минимальный уровни РС на выходе адаптивного алгоритма в дБ, а Ашх>Ашп - уровни исходного РС, дБ, соответственно.

Зависимости средних по всем записям значений выигрыша динамического диапазона от коэффициента импульсной характеристики а0 представлены на рисунке 1.2, для управляющего параметра, рассчитанного по формуле (1.5) (кривые 1) и формуле (1.4) (кривая 2).

Анализ результатов эксперимента показывает, что алгоритм адаптации с расчетом управляющего параметра по выражению (1.5) обладает приблизительно равной эффективностью по величине выигрыша в динамическом диапазоне , по сравнению со случаем расчета по выражению (1.4), при меньших затратах вычислительных ресурсов.

Похожие диссертационные работы по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК

Список литературы диссертационного исследования кандидат наук Баландин, Иван Васильевич, 2013 год

СПИСОК ЛИТЕРАТУРЫ

1. Сапожков М.А. Вокодерная связь/ М.А. Сапожков, В.Г. Михайлов. - М.: Радио и связь, 1983. -248 с.

2. Вокодерная телефония /под ред. A.A. Пирогова. - М.: Связь, 1974. -535 с.

3. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов/ Т.К. Винцюк. -М.: Радио и связь, 1987. -233 с.

4. Назаров М.В. Методы цифровой обработки и передачи речевых сигналов/ М.В. Назаров, Ю.Н. Прохоров. - М.: Радио и связь, 1985. -176 с.

5. Сорокин В.Н. Теория речеобразования/ В.Н. Сорокин. - М.: Радио и связь, 1985.-312 с.

6. Михайлов В.Г. Измерение параметров речи/ В.Г. Михайлов, JI.B. Златоустова. - М.: Радио и связь, 1987. -168 с.

7. Распознавание речевых сигналов по их структурным свойствам/ Р.В. Гудонавичюс и др.. - Л.: Энергия, 1977. -147 с.

8. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах/ Ю.К. Калинцев. - М.: Радио и связь, 1991. -220 с.

9. Маркел Дж.Д. Линейное предсказание речи/ Дж.Д. Маркел, А.Х. Грей. -М.: Связь, 1980. -308 с.

10. Рабинер Л.Р. Цифровая обработка речевых сигналов/ Л.Р. Рабинер, Р.В. Шафер. - М.: Радио и связь, 1981. -495 с.

11. Фланаган Дж. Анализ, синтез и восприятие речи/ Дж. Фланаган. - М.: Связь, 1968. -456 с.

12. Фант Г. Акустическая теория речеобразования/ Г. Фант. - М.: Наука, 1964. -284 с.

13. Методы автоматического распознавания речи: в 2-х книгах. Кн. 1. пер. с англ. / Под. ред. У. Ли. - М.: Мир, 1983. -328 с.

14. Сапожков М.А. Речевой сигнал в кибернетике и связи/ М.А. Сапожков. -М.: Связь, 1963. -452 с.

15. Верхаген К. Распознавание образов: состояние и перспективы/ К. Верхаген, Р. Дейн, Ф. Грун и др. - М.: Радио и связь, 1985. -104 с.

16. Деркач М. Восприятие речи в распознающих моделях/ М. Деркач, Р. Гуметский, JI. Мишин и др. - Львов: ЛУ, 1971. -183 с.

17. Косарев Ю.А. Естественная форма диалога с ЭВМ/ Ю.А. Косарев. - Л.: Машиностроение, 1989. -143 с.

18. Воробьев В.И. Теория и практика вейвлет-преобразования/ В.И. Воробьев, В.Г. Грибунин. - СПб.: Военный университет связи, 1999. -204 с.

19. Михайлов В.Г. Перцептивное восприятие и автоматическое распознавание звучащей речи/ В.Г. Михайлов // Электросвязь, 1996. № 12. -С. 12-15.

20. Рабинер Л.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи/ Л.Р. Рабинер // ТИИЭР, 1989. Т.77. № 2. -С.86-98.

21. Винцюк Т.К. Распознавание слов устной речи методами динамического программирования/ Т.К. Винцюк.// Кибернетика, 1968. № 1. -С. 47-53.

22. Аграновский A.B., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М.: Радио и связь, 2004. -164 с.

23. Пирогов A.A. К вопросу о фонетическом кодировании речи/ A.A. Пирогов // Электросвязь, 1967. № 5. -С.94-98.

24. Галунов В.И. Нелинейное преобразование, сегментация и распознавание раздельно произносимых слов/ В.И. Галунов, А.Е. Гурьянов, Д.А. Саматов // Техника средств связи. Сер. ТПС. 1987. Вып.З. -С. 49-55.

25. Омельченко В.А. Основы спектральной теории распознавания сигналов/ В.А. Омельченко. Харьков: Вища школа, 1983. -156 с.

26. Фукунага К. Введение в статистическую теорию распознавания образов / К. Фукунага. -М.: Наука, 1979. -367 с.

27. Кириллов С.Н. Дикторонезависимое распознавание фонем на основе оптимальных ортогональных разложений/ С.Н. Кириллов, A.C. Шелудяков. //Изв. РАН. Теория и системы управления. 1997. № 5. -С. 53-55.

28. Дмитриев В.Т. Исследование алгоритмов сегментации речевого сигнала при определении патологии гортани/ В.Т. Дмитриев, И.В. Баландин // Биотехнические, медицинские и экологические системы и комплексы. Международная конференция с элементами научной школы для молодежи: материалы конференции-Рязань: РГРТУ, 2009. -С. 161 - 164.

29. Кириллов С.Н. Цифровые системы обработки речевых сигналов: учеб. пособие/ С.Н. Кириллов, Д.Н. Стукалов,- Рязань: РГРТА, 1995. -80 с.

30. Кириллов С.Н. Дикторонезависимая система автоматического поиска ключевых слов в потоке слитной речи/ С.Н. Кириллов, В.Т. Дмитриев, И.В. Баландин// Научная сессия МИФИ-2008. Сборник научных трудов Т. 11-М., 2007. - С.177 -178.

31. Method and device for detecting voice activity. Patent No.: 6154721 US: 704/213 704/226 704/233/ Sonnic; Assignee: U.S. Philips Corporation (New York, NY).- filed: March 19, 1998; Date Issued: November 28, 2000.

32. Speech detection for noisy conditions/ Patent No.: 6480823 US: CLG10L 11/02, G10L 11/00, G10L 021/02 / Zhao et al.; Assignee: Matsushita Electric Industrial Co., Ltd. (Osaka, JP).- filed: March 24, 1998; date of Patent: November 12, 2002

33. Шелухин О.И. Цифровая обработка и передача речи / О.И. Шелухин, Н.Ф. Лукьянцев; под ред. О.И. Шелухина. — М.: Радио и связь, 2000.— 456 е.: ил.

34. ГОСТ Р 50840-95. Передача речи по трактам связи. Методы оценки качества, разборчивости, узнаваемости. - Введ. 1995-11-21. - - М.: Госстандарт России : Изд-во стандартов, 1995. -198 е.: ил.

35. Оппенгейм A.B. Цифровая обработка сигналов/ A.B. Оппенгейм, Р.В. Шафер. -М.: Связь, 1979. -416 с.

36. Шустиков O.E. Адаптивная сегментация акустически однородных элементов речи/ O.E. Шустиков, В.Г. Перминов // Радиоэлектронные системы и устройства: межвуз. сб. науч. тр. - Рязань: РГРТА, 1999. -С.47-50.

37. Кириллов С.Н. Об эффективности статических и динамических признаков при распознавании речевых сигналов/ С.Н. Кириллов, O.E. Шустиков // Автоматика и телемеханика, 2001. № 3. -С. 151-157.

38. Солодовников А.И. Основы теории и методы спектральной обработки информации/ А.И. Солодовников, A.M. Спиваковский. - Л., 1986. -272 с.

39. Kamarauskas J. Automatic segmetation of phonemes using artificial neural networks/ J. Kamarauskas// Elektron, ir elektrotech. 2006, Vol.8. -P.39-42.

40. Герасимов А. В. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов/ A.B. Герасимов, O.A. Морозов, В.Р. Фидельман // Радиотехника и электроника. 2005. 50. № 10. -С. 1287-1291.

41. Шалимов И. А. Аналитический обзор систем кодирования речи/ И. А. Шалимов// Телекоммуникации 2006. № 2. -С. 7-15.

42. Фабричная Е. С. Структура кодеков речевого сигнала на базе КЛП кодека с учетом определения границ фонем/ Е. С. Фабричная // Методы и устройства передачи и обработки информации: межвуз. сб. науч. тр. Вып. 9. -М.: Радиотехника. 2007. -С. 209-214.

43. Сорокин В.Н. Сегментация и распознавание гласных/ В.Н. Сорокин, А.И. Цыплихин // Информационные процессы, 2004. Том 4. № 2. -С. 202-220

44. Ouzounov A. Robust features and neural network for noisy speech detection/ A.Ouzounov // Cybern, and Inf. Technol. 2006. Vol.6. No.3. -P.75-84.

45. Milner Ben Prediction of fundamental frequency and voicing from mel-frequency cepstral confficients for unconstrained speech reconstruction/ Ben Milner, Xu. Shao // IEEE Trans. Audio, Speech, and Lang. Process. 2007. Vol.15, N0.1.-P.24-33.

46. Анализ и синтез речевых сигналов с использованием словаря фонем (Аналитический обзор)// - М.: ЦООНТИ "ЭКОС", 1988.

47. Штарк Г.-Г. Применение вейвлетов для ЦОС/ Г.-Г. Штарк. - М.: Техносфера, 2007. - 192 с.

48. Добеши И. Десять лекций по вейвлетам/ И. Добеши. - Ижевск: РХД, 2001.

- 464 с.

49. Ермоленко Т. Алгоритмы сегментации с применением быстрого вейвлет преобразования [Электронный ресурс]/ Т. Ермоленко, В. Шевчук //Статьи, принятые к публикации на сайте международной конференции Диалогл2003. Режим доступа: www.dialog-21.ru (дата обращения: 17.10.08).

50. Петровский А.А. Перцептуальный кодер звука на базе быстрого вейвлет преобразования с динамической трансформацией частотно-временного плана/ А.А. Петровский // Цифровая обработка сигналов. № 4. 2009. -С.48-58.

51. Song Bing Gu Chuan-qing, Zhang Jian-jun. J. A new pitch detection algorithm based on wavelet transform.// Shanghai Univ. 2005. Vol.9. No.4. -P.309-313.

52. Полков А. А. Алгоритм распознавания ключевых речевых единиц на базе вейвлет-преобразования/ А. А. Полков // Телекоммуникации. -2006. -№ 10.-С. 7-11.

53. Санников В.Г. Пороговые кривые маскировки и слуховые вейвлеты/ В.Г. Санников, А.В. Коробанов // INTERMATIC-2005: Материалы Международной научно-технической конференции "Фундаментальные проблемы радиоэлектронного приборостроения", Москва. Ч. 2. - М.: Изд-во МИРЭА, 2006. -С. 63-66.

54. Рогозинский Г.Г. Перцепционное кодирование звука на основе вейвлетной компрессии/ Г.Г. Рогозинский // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2009. -С.163-164.

55. Баландин И.В. Алгоритм дикторонезависимого поиска ключевых слов/ И.В. Баландин // 15-я ВНТК студентов молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании»: материалы конференции. Рязань, 2010. -С. 142-143.

56. Tan В. The Use of Wavelet Transforms in Phoneme Recognition/ B. Tan, M. Fu, A. Spray, P. Dermody// Proceedings ICSLP, 1996; Fourth International

Conference on Spoken Language Processing; Philadelphia, Pennsylvania; Oct. 3-6. Vol. 4. 1996 -P. 2431-2434.

57. Al-Sawalmeh W. The Use of Wavelets in Speaker Feature Tracking Identification System Using Neural Network/ W. Al-Sawalmeh, K. Daqrouq, A. Al-Qawasmi, T. Abu Hilal// WSEAS TRANSACTIONS on SIGNAL PROCESSING. Issue 5. Vol. 5. May 2009. -P. 167-170.

58. Кириллов С.Н. Синтез оптимальной действительной и комплексной вейвлет-функций/ С.Н. Кириллов, С.В. Зорин// Вестник Рязанской государственной радиотехнической академии. 1999. Вып. 6. С. 19-21.

59. Смоленцев Н. К. Основы теории вейвлетов. Вейвлеты в MATLAB. - М.: ДМК Пресс, 2005. - 304 с.

60. Grossmann A. Decomposition of Hardy functions into square integrable wavelets of constant shape/ A. Grossmann, J. Morlet. //SIAM J. Math. Anal. Vol.15. 1984.

61. Дюран Б. Кластерный анализ/ Б.Дюран, П. Одел. пер. с англ. Е.З. Демиденко; под ред. А.Я. Боярского. М.: Статистика, 1977,- 128 с.

62. Lee L. A frequency warping approach to speaker normalization/ L. Lee, R. Rose // IEEE Trans, Speech Audio Process., Jan. 1998.Vol. 6, No. 1. -P. 49-60.

63. Дубровский В.В. О проблеме дикторонезависимости при распознавании речи на фонемном уровне/ В.В. Дубровский, А.И. Егоров// Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции ДИАЛОГ'2003. — Протвино, - 2003. — С. 16-20.

64. Михайлов В.Г. Информационные и статистические характеристики параметров устной речи/ В.Г. Михайлов. - М.: Изд-во МГУ, 1992. -160 с.

65. Рамишвили Г.С. Криминалистическое исследование фонограмм речи и идентификация личности говорящего/ Г.С. Рамишвили, Г.В. Чикоидзе. -Тбилиси: Мецниереба, 1991. -265 с.

66. McAulay R.J. Speech analysis/synthesis based on a sinusoidal representation/ R.J. McAulay, T.F. Quatieri // IEEE Trans. On Acoustics, Speech and Signal Process., -1986. - Vol. 34. No. 4. - P.744-754.

67. Almeida L. В. Non-stationary spectral modeling of voiced speech/ L.B. Almeida, J.M. Tribolet // IEEE Trans, on Acoustics, Speech, and Signal Processing. -1983. -Vol. 31. -P. 664-678.

68. Голубинский A.H. Математическая модель речевого сигнала, основанная на аппроксимации спектра набором постоянных составляющих в соответствующих полосах частот/ А.Н. Голубинский // Безопасность информационных технологий. - 2009. - № 2. - С. 12-18.

69. Баландин И.В. Применение дискретного вейвлет преобразования с дробным показателем сжатия в системе поиска ключевых слов // 16-я ВНТК студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании»: материалы конференции. - Рязань, 2011. -С. 244-245.

70. Фролов М.В. Контроль функционального состояния человека-оператора/ М.В.Фролов. - М.: Наука, 1985. -200 с.

71. Xu Jian-Wu. A pitch detector based on a generalized correlation function/ Jian-Wu Xu, Jose C. Principe //IEEE Trans. Audio, Speech, and Lang. Process. 2008. Vol. 16, No.28. -P. 1420-1432.

72. Архипов И.О. Оценка точности выделения основного тона методом GS/ И.О. Архипов, В.Б. Гитлин // XI сессия Российского акустического общества «Современные речевые технологии»: сб. тр. М., 1999. -С. 38-42.

73. Huici M.E.H.D. Combined algorithm for pitch detection of speech signals/ - M.E.H.D. Huici, J.V.L. Ginori // Electronics Letters. 5th -1995. Vol.31. № 1.

74. Рабинер JI. Теория и применение цифровой обработки сигналов/ Л. Рабинер, Б. Голд. - М.: Мир, 1978. - 848 с.

75. Resch В. Estimation of the instantaneous pitch of speech/ B. Resch, M. Nilsson, A. Ekman, W. Kleijn // IEEE Trans. Audio, Speech, and Lang. Process. 2007. Vol. 15. No. 3.-P.813-822.

76. СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА Пат. 2174714 Российская Федерация /Архипов И.О., Веркиенко Ю.В., Гитлин В.Б., Казаков B.C. Заявитель и патентообладатель Научно-технический центр

"Вычислительная техника". - № 98108956/09; заявл. 12.05.98; опубл. 10.10.02.

77. System and method for multi-channel pitch detection. Patent No.: 20090222260 US ГРС8: AG10L1104FI/ David W. Petr Agents: SUITER SWANTZ PC LLO.- date of Patent: Sep. 3, 2009.

78. СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА ИЗ РЕЧЕВОГО СИГНАЛА Патент 2184399 Российская Федерация: G10L15/00, G10L101/02/ Аграновский А.В., Леднов Д.А., Потапенко A.M., Репалов С.А., Сулима П.М. Заявитель и патентообладатель Государственное предприятие Конструкторское бюро "Спецвузавтоматика". - № 2000124181/09; заявл. 22.09.00; опубл. 27.06.02.

79. REFINEMENT OF PITCH DETECTION. Patent No.: 6885986 US: CI.7. G10L 11/04 /Ercan F. Gigi; Assignee: Koninklijke Philips Electronics N.V., Eindhoven (NL).- filed: May 7. 1999; date of Patent: Apr. 26,2005.

80. Реформатский А. А. Введение в языковедение /под ред. В.А. Виноградова. - М.: Аспект Пресс, 1996 - 536 с.

81. Кодзасов С.В. Общая фонетика: Учебник./ С.В. Кодзасов, О.Ф. Кривнова -М.: Рос. гос. гуманит. ун-т, 2001.

82. Голд Б. Цифровая обработка сигналов/ Б. Голд, Ч. Рейдер. - М. : Сов. радио, 1973. - 368 с.

83. Yang Chen. Static and dynamic spectral features: their noise robustness and optimal weights for ASR/ Chen Yang, K. Soong Prank, Tan. Lee // IEEE Trans. Audio, Speech, and Lang. Process. 2007, Vol.15. No.23. -P.1087-1097.

84. Галунов В.И., Соловьев Л.Н. Темные пятна в области распознавания речи/ В.И. Галунов, Л.Н. Соловьев. Сборник трудов XV сессии Российского акустического общества. Т.З. М.: Геос, 2004. -С. 9-19.

85. Кириллов С.Н. Устойчивая к действию мешающих факторов система идентификации дикторов на основе искусственных нейронных сетей/ С.Н. Кириллов, С.С. Хахулин. Труды V Международной конференции

«Идентификация систем и задачи управления» SICPRO '06. Москва, 2006. -С. 300-305.

86. Микулич А.А. Система распознавания набора голосовых команд на базе нейронной сети/ А.А. Микулич. Труды IV Международной конференции «Идентификация систем и задачи управления» SICPRO '05. Москва, 2005. -С. 927-933.

87. Сорокин В.Н. Новые концепции в автоматическом распознавании речи/ В.Н. Сорокин. Сборник трудов XIII сессии Российского акустического общества. М.: Геос, 1999. -С.50-57.

88. d'Alessandro С. Effectiveness of a periodic and aperiodic decomposition method for analysis of voice sources/ C. d'Alessandro, V. Darsinos, B. Yegnanarayana// IEEE Transactions on Speech and Audio Processing - 1998. Vol.6. № 1. -P. 12 -23.

89. Jackson P.J.B. Pitch-scaled estimation of simultaneous voiced and turbulence-noise components in speech/ P.J.B. Jackson, C.H. Shadle// IEEE Transactions on Speech and Audio Processing.- 2001.Vol. 9. № 7. -P. 713 - 726.

90. Петровский А.А. Низкоскоростной вокодер с моделью речеобразования «гармоники + шум»/ А.А. Петровский, В.В. Серков //Цифровая обработка сигналов. -2002. -№ 2. -С.2-12.

91. Павловец А.Н. Квантование огибающей спектра в вокодере, основанное на декомпозиции речевого сигнала на периодическую и апериодическую составляющие/ А.Н. Павловец, А.А. Петровский. Цифровая обработка сигналов. -2005. -№ 3. -С. 13-21.

92. Yegnanarayana В. An iterative algorithm for decomposition of speech signals into periodic and aperiodic components/ B. Yegnanarayana, C. d'Alessandro, V. Darsinos// IEEE Transactions on Speech and Audio Processing. 1998. Vol.6. № l.-P. 1-11.

93. Кириллов С.Н. Алгоритм сегментации речевых сигналов на основе вейвлет-пакетного разложения/ С.Н. Кириллов, В.Т. Дмитриев, И.В.

Баландин// Научная сессия МИФИ-2009. Сборник научных трудов Т.З.-М., 2009.-С.140.

94. Баландин И.В. Разработка алгоритма сегментации речевого сигнала на основе вейвлет-пакетного разложения/ И.В.Баландин// 14-я ВНТК студентов молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании»: материалы конференции. Рязань, 2009. -С. 114-115.

95. Баландин И.В. Алгоритм сегментации речевых сигналов для автоматической системы поиска ключевых слов/ И.В.Баландин// Вестник РГРТУ, 2010. № 2 (Выпуск 32). -С. 27-31.

96. Сапожков М. А. Электроакустика: учебник для вузов/ М. А. Сапожков. М.: Связь, 1978. -272 с.

97. Rabiner L. R., Juang В.-Н. and Lee С.-Н. An Overview of Automatic Speech Recognition // In: C.H. Lee, F.K. Soong, K.K. Paliwal (Eds). Automatic Speech and Speaker Recognition: Advanced Topics, The Kluwer International Series in Engineering and Computer Science, Kluwer Academic Publishers, Boston, USA, 1996.

98. Bourlard H., Morgan N. Connectionist Speech Recognition. A Hybrid Approach // The Kluwer International Series in Engineering and Computer Science. Vol. 247. Kluwer Academic Publishers, Boston, 1994.

99. Иванов A.B. Методы построения устройств распознавания речи на базе гибрида нейронная сеть/скрытая марковская модель/ A.B. Иванов, A.A. Петровский// Труды VIII Всероссийской конференции «Нейрокомпьютеры и их применение» НКП-2002, Москва, 2002. -С.423-433.

100. Morgan N., Bourlard Н. Neural Network for Statistical Recognition of Continuous Speech//Proceedings of IEEE, 1995. Vol.83. No. 5. -P.742-770.

101. Оссовский С. Нейронные сети для обработки информации/ С. Оссовский. -М.: Финансы и статистика, 2002. -344 с.

102. Хайкин Саймон. Нейронные сети: полный курс, 2-е изд. : пер. с англ. — М. : Издательский дом "Вильяме", 2006. — 1104 с. : ил.

103. Lippmann R.P., Gold В. Neural Classifiers Useful for Speech Recognition // IEEE Proc. First Intl. Conf. on Neural Networks, San Diego, CA, 1987. Vol. IV. -P. 417-422.

104. Peeling S.M. and Moore R.K. Experiments in Isolated Digit Recognition Using Multi-Layer Perceptron // Technical Report 4073, Royal Speech and Radar Establishment, Malvern, Worcesber, Great Britain, 1987.

105.Waibel A., Hanazawa T., Hinton G., Shikano K. & Lang K. Phoneme Recognition Using Time-Delay Neural Networks // IEEE Transaction on Acoustic Speech Signal Processing Vol. 37, 1989 -P. 328-339.

106.Bourlard H., Wellekens C. Links Between Markov Models and Multilayer Perceptrons // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1990. Vol. 12. No. 12. -P. 1167-1178.

107. Richard M.D., Lippmann R.P. Neural network classifiers estimate Bayesian a posteriori probabilities //Neural Computation. 1991. No. 3. -P. 461-483.

108. Bridle J. An efficient elastic template method for detecting given words in running speech // British Acoustical Society Meeting. Apr. - 1973.

109.Гребнов C.B. Аналитический обзор методов распознавания речи в системах голосового управления // Вестник ИГЭУ Выпуск 3. Иваново.-2009. -С.83-85.

110. Viterbi A.J., Error bounds for convolutional codes and an asymptotically optimal decoding algorithm// IEEE Trans. Informat. Theory. Vol. IT-13. -P. 260-269, Apr. 1967.

Ш.Кириллов С.Н. Исследование устойчивости к акустическим шумам дикторонезависимой системы автоматического поиска ключевых слов/ С.Н. Кириллов, В.Т. Дмитриев, И.В. Баландин //15-я Международная научно-техническая конференция "Проблемы передачи и обработки информации в сетях и системах телекоммуникаций": тез. докладов. Часть 1. - Рязань: РГРТУ, 2008. -С.54-56.

112.Higgins A. Keyword recognition using template concatenation// Acoustics, Speech, and Signal Processing. IEEE International Conference on ICASSP,

1985.

113. Левинсон С.Е. Структурные методы автоматического распознавания речи/ С.Е. Левинсон// ТИИЭР. 1985. Т.73. № 11. -С. 100-129.

114.Magimai.-Doss М., Stephenson Т. A., Ikbal S., and Bourlard Н. Modelling auxiliary features in tandem systems// In Proceedings of Int. Conf. Spoken Language Processing (INTERSPEECH-ICSLP-04). South Korea.-2004.

115.Кохонен Т. Самоорганизующиеся карты /Т. Кохонен; пер. 3-го англ. Изд. -М.: Бином. Лаборатория знаний, 2008. - 655 с. : ил.

Пб.Макхоул Дж., Рукос С, Гиш Г. Векторное квантование при кодировании речи//ТИИЭР, 1985. Т. 73. № Ц. -С. 19—61.

117. Баландин И.В. Разработка алгоритма обучения нейронной сети для классификации акустически однородных участков речи/ И.В. Баландин // 14-я ВНТК студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании», материалы конференции,- Рязань, 2009. -С. 244-245.

118. Fern X.Z., Brodley С.Е. Clustering ensembles for high dimensional data clustering // In Proc. International Conference on Machine Learning. 2003. -P. 186-193.

119. Fred A., Jain A.K. Combining multiple clusterings using evidence accumulation // IEEE Tran. on Pattern Analysis and Machine Intelligence. 2005. V. 27. -P. 835-850.

120. Круглов В. В., Дли М. И., Голунов Р. Ю., Нечёткая логика и искусственные нейронные сети. — М.: Физматлит, 2001. 221 с. : ил.

121.Мандель И. Д. Кластерный анализ.— М.: Финансы и статистика. 1988.— 176 е.: ил.

122. Ward J. Н., Hierarchical Grouping to Optimize an Objective Function // Journal of the American Statistical Association, -No. 58. - P.236-244.

123. Lance G. N., Williams. W. T. A General Theory of Classificatory Soiling Strategies// Hierarchical Systems. Computer Journal. Vol. 9. 1967. — P.373-380.

124.Bengio Y., De Mori R., Flammia G. & Kompe R. Global Optimization of a Neural Network-Hidden Markov Model Hybrid// IEEE Trans on Neural Networks, Vol. 3. No. 2. 1992. -P. 252-259.

125.Bourlard H., Morgan N. Merging Multilayer Perceptrons and Hidden Markov Models: Some Experiments in Continuous Speech Recognition// Neural Networks: Advances and Applications, 1991. -P. 215-239

126. Солонина А. И. Алгоритмы и процессоры цифровой обработки сигналов/ А.И. Солонина, Д.А.Улахович, JI.A. Яковлев — СПб.: БХВ-Петербург, 2002. —464 с: ил.

127. Bakis. R. Continuous speech word recognition via centi-second acoustic states.// In Proc. ASA Meeting (Washington, DC)/ Apr. 1976.

128. Баландин И.В. Разработка алгоритма поиска ключевых слов на основе реккурентной нейронной сети// 16-я ВНТК студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании», материалы конференции. Рязань, 2011. -С. 245-246.

129. Беллман Р., Дрейфус С. Прикладные задачи динамического программирования. -М.: Наука, 1965. 460 е.: ил.

130.Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. - P. 79-86.

131. Колмогоров А.Н. Представление непрерывных функций многих переменных суперпозицией функций одной переменной и сложением// ДАН. 1958. № 5. -С. 953-956.

132. Bridle J.S. Probabilistic interpretation of feedforward classification network outputs, with relationships to statistical pattern recognition // Neuro-computing: Algorithms, Architectures and Applications. F. Fougelman-Soulie and J. Hrault, eds., NATO ASI Series, New York. 1990 -P.227-236.

133. Проблемы построения и обучения нейронных сетей / под ред. А.И. Галушкина и В.А. Шахнова. — М.: Машиностроение. Библиотечка журнала «Информационные технологии», 1999,- 216 с.

134.Шахнов В.А., Власов А.И., Кузнецов A.C. Элементная база параллельных вычислений// Открытые системы. 2001. № 5-6. -С.15-19.

135. Червяков Н.И., Сахнюк П.А., Шапошников A.B. Пути эффективного использования иерархических структур сегментов нейронных сетей на ПЛИС Xilinx при аппаратной реализации цифровых фильтров с параллельной обработкой данных //Нейрокомпьютеры: разработка и применение. № 10. 2001. -С.45-50.

136. Антонов А.П. Язык описания цифровых устройств AlteraHDL. Практический курс. М.: Издательское предприятие РадиоСофт, 2002. - 224 с.

137. Галушкин А.И. Некоторые исторические аспекты развития элементной базы вычислительных систем с массовым параллелизмом (80-е и 90-е годы) // Нейрокомпьютер, 2000. № 1. -С.3-15.

138.Шлеев С.Е. Элементная база и архитектура цифровых радиоприемных устройств // Цифровая обработка сигналов. 1999. № 1. -С.36-47.

139.Корнеев В.В., Киселев A.B. Современные микропроцессоры. М.: Нолидж, 1998. -240 с.

140. Пантелейчук А. Основы выбора цифровых сигнальных процессоров// Электронные компоненты. 2006. № 6. -С.3-15.

141. Методы выбора МП для использования в МПС/ Аксенов А.И., Пургов С.Т., Терехин В.И. и др.// Обзоры по электронной технике. - М.: Издательство ЦНИИ "Электроника", 1985. Серия 3.Микроэлектроника. Вып.2(1102). 30 с.

142. TI's catalog of digital signal processors Texas Instruments. [Электронный ресурс]. -Режим доступа: http://www.ti.com/lsds/ti/dsp/products.page (дата обращения: 17.12.12).

143. Analog Devices Processors and DSP [Электронный ресурс]. -Режим доступа: http://www.analog.com/en/processors-dsp/products/index.html (дата обращения: 17.12.12).

144. Microchip 16-bit PIC24 MCUs and dsPIC® DSCs [Электронный ресурс]. -Режим доступа: http://www.microchip.com/pagehandler/en-us/family/16bit/ (дата обращения: 17.12.12).

145. Freescale Digital Signal Controllers [Электронный ресурс]. -Режим доступа: http ://www. freescale. com/webapp/sps/site/homepage .j sp?code=D SCHOME&ti d=FSH (дата обращения: 17.12.12).

ПРИЛОЖЕНИЕ А. Список аббревиатур и условных сокращений

Аббревиатуры

ААПКС - алгоритм автоматического поиска ключевых слов

АИКМ - адаптивная импульсно-кодовая модуляция

АОУ - акустически однородные участки

АРР - автоматическое распознавание речи

АЦП - аналого-цифровой преобразователь

ВК - векторное квантование

ВПР - вейвлет пакетное разложение

ВФ - вейвлет функция

ИНС - искусственная нейронная сеть

МП - многослойный персептрон

НВП - непрерывное вейвлет преобразование

ОПФ - оконное преобразование Фурье

ОСШ - отношение сигнал-шум

ОТ - основной тон

ПЛИС - программируемые логические интегральные схемы

РС - речевой сигнал

СКО - среднеквадратическое отклонение

СММ - скрытая марковская модель

СФПВ - совместная функция плотности вероятности

ЦОС - цифровая обработка сигналов

ЦСП - цифровые сигнальные процессоры

ФФР - фонетическая функция речи.

Условные сокращения

Латинские

А - коэффициент полинома

амплитуда к-й гармоники матрица переходных вероятностей

вероятность перехода модели из состояния г в состояние у

масштаб ВФ к- й масштаб НВП

весовые коэффициенты, определяющие степень значимости г-го параметра

коэффициент полинома

множество распределений вероятности появления символов наблюдения

массив оценки параметров СММ относительный показатель качества /-го параметра сдвиг ВФ

сдвиг ВФ, соответствующий началу кадра сдвиг ВФ, соответствующий концу кадра координаты минимумов коэффициентов НВП распределение вероятности появления символа наблюдения ук в состоянии sj

элемент массива оценки параметров СММ

вспомогательная переменная для оценки транзитивной вероятности

вспомогательная переменная для оценки эмиссионной вероятности

ячейка кодового пространства

коэффициент полинома

центр / -го кластера вектора признаков

коэффициент полинома

Иь - выигрыш динамического диапазона

£) - средняя ошибка квантования кодовой книги - средняя ошибка квантования 1-й ячейки

л л

¿/(З^Д) - расстояние между векторами и

с1., - детализирующие коэффициенты

с1. - средний диаметр / -го кластера вектора признаков

с7 - среднее расстояние между кластерами

¿/тш - минимальное расстояние между кластерами

Е - коэффициент полинома

Е(с[) - энергия кадра

Е - адаптивный порог

Е8 - частота дискретизации РС

Е0 - частота ОТ

Еоэт - эталонная частота ОТ

^ - комбинированный критерий оценки качества системы признаков

Ек - комбинированный критерий качества квантования

/к - частота к-й гармоники

А шах ~ веРхняя граница полосы пропускания масштабированной ВФ

Ашт ~ нижняя граница полосы пропускания масштабированной ВФ

/(д:) - произвольная функция

/ - частота

С(п) - коэффициент передачи усилителя

G0 - постоянный коэффициент, определяющий коэффициент передачи

gG (п) - управляющий параметр коэффициента передачи

gl (п) - управляющий параметр выделителя пауз

адаптивный порог

последовательность символов наблюдения размером К

последовательность символов наблюдения, связанная с подмоделью м?г

последовательность символов, наблюдения от момента времени t=i до момента времени

символ наблюдения, генерируемый в момент времени к

импульсная характеристика фильтра

передаточная функция голосового тракта

информационная мера Кульбака — Лейблера

целевая функция обучения СММ

переменная

переменная

статистический критерий оценки качества системы признаков артефактный критерий оценки качества системы признаков коэффициент адаптации переменная

кратность изменения масштабов НВП

максимальный уровень РС на выходе адаптивного алгоритма минимальный уровень РС на выходе адаптивного алгоритма максимальный уровень исходного РС минимальный уровень исходного РС

размерность вектора признаков в выбранном пространстве.

размер кодовой книги число нейронов слоя Гроссберга длительность ВФ, отсчетов длительность ВФ /-го масштаба

К - номер вектора - победителя

Ме1{/) - мел-шкала ощущения частоты тонального сигнала

М - индекс модуляции

Ммп - комбинированный критерий выбора ЦСП

м() - оператор математического ожидания

N - число отсчетов РС

- число масштабов НВП

^кадр - размер кадра, отсчетов

- количество акустических образов

- число реализаций речевого сигнала одного диктора

- объем тестовой выборки

- количество признаков, характеризующих выборку

нвф - количество ВФ

- количество весовых коэффициентов ИНС

К - количество дополнительных переменных.

- количество используемых ячеек памяти

- количество слоев ИНС

К - количество синапсов /-го слоя ИНС

Кк - количество показателей качества

ПИ - количество появлений акустического вектора ук в состоянии я

п - переменная

р - вероятность

Л - вероятность правильного определения границы

Р/ - вероятность ложного определения границы

ри - вектор представления первичных признаков

РзМ - функция плотности длительности состояния SJ■

1-й показатель качества эталон /-го показателя качества добротность ВФ

верхний предел бесконечного числового ряда число интервалов

последовательность состояний источника размером Т

распознанная последовательность символов

последовательность состояний от момента времени 1=1 до момента времени t=j оператор квантования

оптимальная последовательность состояний оптимальное состояние состояние источника в момент времени ? отношение сигнал-шум

число интервалов РС, соответствующее постоянной времени слухового восприятия

матрица расстояний между центрами кластеров векторов признаков

расстояние между / -м и j -м центрами кластеров векторов признаков

средний радиус кластера максимальный радиус кластера количество выборок

множество состояний модели размером и кодовая книга кодовый вектор

(Ук ) ~ обдающий вектор МП при подаче на вход акустического вектора ук

Зха - площадь частотно-временного окна

- спектр источника

(#) ~ спбктрэльнзя компонента

- РС

з(п) - отсчеты РС

5 - коэффициенты аппроксимации

Sj - у-е состояние СММ

(ук ) ~~ значение обучающего вектора подаваемого нау-й выход МП при подаче на вход акустического вектора ук ^П {ук) ~ выходное значение у-го нейрона выходного слоя при подаче на

вход МП акустического вектора ук 5/. - 7-я координата кодового вектора

Т1 - вычислительная сложность /-го слоя ИНС;

Ту - вычислительная сложность функции активации /-го слоя

Тит,™ ~ вычислительная сложность НВП

НИИ

Тине ~ вычислительная сложность программной реализации ИНС

Г0 - период ОТ

Т" - интервал анализа

1Н - нижняя граница интервала анализа

4 - верхняя граница интервала анализа

¿0 - оценка длительности одного периода ОТ

? - время

и - число возможных состояний модели

иа - отклик нейронов входного слоя транзитивных вероятностей

иь - отклик нейронов входного слоя эмиссионных вероятностей

и( - вектор состояния системы в момент времени I

V - число символов наблюдения модели

]¥ц,(а,Ь) - коэффициенты НВП

}У - сегментирующая функция V вида

- пороговая функция V вида

V

{}¥У ~ СММ с размером словаря 2

цт* вектор весов /-го нейрона слоя Кохонена в момент времени I

щк - полная кодовая книга

и/к - обучающая кодовая книга

о

ц>х - подмодель г-го ключевого слова

уу* - вектор весов 1-го нейрона слоя Кохонена

^ - весовые коэффициенты нейронов транзитивных вероятностей

ууЬ - весовые коэффициенты нейронов эмиссионных вероятностей

- переоцененные значения весовых коэффициентов ИНС акустического моделирования

уугР - весовой коэффициенту-го нейрона, соединенный с входом I

■м* - весовой коэффициент /-го нейрона слоя Кохонена, соединенный

с входом 7

- подмодель 2- го ключевого слова

х - центры частотно-временного окна во временной области

- множество символов наблюдения размером V

угр - выходное значениеу'-го нейрона слоя Гроссберга

у°б - у-я компонента обучающего вектора слоя Гроссберга

ук - к-й символ наблюдения

у(п, к) - мгновенный спектр РС

у* - выходное значение /-го нейрона слоя Кохонена

2 - размер словаря ,

Греческие

сс - коэффициент импульсной характеристики

а0 - коэффициент импульсной характеристики управляющего

параметра

а1 - коэффициент импульсной характеристики выделителя пауз

а - параметр пороговой функции сегментации

а( (у) - прямая переменная алгоритма прямого - обратного хода АО) - обратная переменная

- коэффициент пороговой функции сегментации

Тг - множество всех возможных последовательностей состояний

подмодели м>2

8ЭТ (г) - эталонная координата /-й границы сегмента речевой активности 8 (г) - координата /-й границы сегмента речевой активности цК - параметр скорости обучения слоя Кохонена

V - параметр скорости обучения слоя Гроссберга

- параметр скорости обучения алгоритма глобальной оптимизации

- количество ячеек памяти для хранения одного элемента данных

г} - количество ячеек памяти, необходимых для хранения одного

весового коэффициента ИНС г}и - количество ячеек памяти, необходимых для хранения одной

дополнительной переменной

- фаза /с-й гармоники

Л - множество параметров СММ

Я2 - множество параметров, связанных с подмоделью у\>2

Хг - оценка истинных параметров модели

¡лх - наличие события

- отсутствие события

- математическое ожидание состояния 5.

- ошибка оценки координат границ сегментов речевой активности ^ - нормированное СКО оценки частоты ОТ

- нормированное СКО оценки границ вокализованных сегментов

£мп _ среднеквадратическая ошибка выхода МП

П - распределение начальных вероятностей состояний СММ

я-,. - начальная вероятность состояния sJ■

(72{п) ~ дисперсия отсчетов РС

с1. - дисперсия распределения состояния

Ту - вектор длительностей символа наблюдения от момента времени

1=1 до момента времени

т( - длительность символа наблюдения

то - постоянная времени слухового восприятия

и1 - целевой порог обучения СММ

ф - скейлинг функция

щ - базисный вектор произвольного преобразования

т - вейвлет функция

у/аЬ - анализирующая вейвлет функция

у/{С) - базовый вейвлет

- энергия ВФ

- энергия преобразования Фурье ВФ

центр частотно-временного окна в частотной области центральная частота ВФ

радиус частотно-временного окна во временной области радиус частотно-временного окна в частотной области интервал дискретизации абсолютная величина перекрытия решение о наличии события

решение об отсутствии события

176

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.