Предобработка речевых сигналов в системах автоматической идентификации диктора тема диссертации и автореферата по ВАК РФ 05.12.04, кандидат наук Тупицин Геннадий Сергеевич

  • Тупицин Геннадий Сергеевич
  • кандидат науккандидат наук
  • 2015, ФГБОУ ВО «Владимирский государственный университет имени Александра Григорьевича и Николая Григорьевича Столетовых»
  • Специальность ВАК РФ05.12.04
  • Количество страниц 137
Тупицин Геннадий Сергеевич. Предобработка речевых сигналов в системах автоматической идентификации диктора: дис. кандидат наук: 05.12.04 - Радиотехника, в том числе системы и устройства телевидения. ФГБОУ ВО «Владимирский государственный университет имени Александра Григорьевича и Николая Григорьевича Столетовых». 2015. 137 с.

Оглавление диссертации кандидат наук Тупицин Геннадий Сергеевич

Список сокращений

Введение

Глава 1. Обзор современных систем идентификации диктора и алгоритмов шумоподавления в речевых сигналах

1.1. Система идентификации диктора

1.1.1. Классификация задач распознавания диктора

1.1.2. Структура системы идентификации диктора

1.1.3. Информативные признаки речевого сигнала

1.1.4. Мел-частотные кепстральные коэффициенты

1.1.5. Обработка информативных признаков

1.1.6. Моделирование диктора

1.1.7. Модели гауссовых смесей

1.1.8. ЕМ-алгоритм

1.1.9. Универсальная фоновая модель

1.1.10. Классификация речевых сигналов

1.1.11. Оценка качества работы системы идентификации диктора

1.1.12. Устойчивость к шумам

1.2. Подавление шума в частотной области

1.2.1. Постановка задачи

1.2.2. Моделирование речи и шума

1.2.3. Функция коррекции спектра

1.2.4. Период стационарности речи

1.2.5. Подавление шума в реальных цифровых системах

2

1.2.6. Оценка априорного отношения сигнал/шум

1.2.7. Бинарные маски

1.2.8. Мягкие маски

1.3. Оценка качества речевых сигналов

1.3.1. Отношение сигнал/шум

1.3.2. Сегментное отношение сигнал/шум

1.3.3. Логарифмическое отношение правдоподобия

1.3.4. Взвешенный наклон спектра

1.3.5. Оценка восприятия качества речи

1.4. Выводы по главе

2. Оценка качества работы алгоритмов шумоподавления в системе идентификации диктора

2.1. Используемое программное обеспечение

2.2. Используемая система идентификации диктора

2.3. Базы речевых сигналов

2.4. Прямая оценка качества работы системы идентификации диктора

2.5. Используемые типы шумов

2.6. Оценка качества работы системы идентификации диктора с помощью показателей качества речи

2.6.1. Показатель качества на основе мел-частотных кепстральных коэффициентов

2.6.2. Вычисление линейных коэффициентов корреляции

2.7. Альтернативная оценка точности идентификации дикторов

2.8. Быстрая оценка точности идентификации дикторов

2.9. Практическое применение

3

2.10. Выводы по главе

3. Разработка алгоритмов шумоподавления для системы идентификации диктора

3.1. Модифицированный двухступенчатый алгоритм

3.1.1. Сглаживание априорного отношения сигнал/шум

3.1.2. Подбор параметра алгоритма

3.2. Обобщенные мягкие маски

3.3. Разработка алгоритма на основе мягкой маски

3.3.1. Новый подход к расчету мягкой маски

3.3.2. Подбор параметров алгоритма

3.4. Двухступенчатый алгоритм на основе мягкой маски

3.4.1. Предлагаемая модификация

3.4.2. Подбор параметра алгоритма

3.5. Сравнение алгоритмов

3.6. Выводы по главе

Заключение

Список литературы

Приложение 1. Акты внедрения результатов работы

СПИСОК СОКРАЩЕНИЙ

АБГШ - аддитивный белый гауссовский шум

АОТИД - альтернативная оценка точности идентификации дикторов

БОТИД - быстрая оценка точности идентификации дикторов

ДКП - дискретное косинусное преобразование

ДПФ - дискретное преобразование Фурье

МГС - модель гауссовых смесей

МЧКК - мел-частотные кепстральные коэффициенты

МЧКК-Ll - показатель качества речи на основе расстояния городских

кварталов между мел-частотными кепстральными коэффициентами

МЧКК-М - показатель качества речи на основе расстояния Махаланобиса

между мел-частотными кепстральными коэффициентами

МЧКК-Э - показатель качества речи на основе Евклидова расстояния между

мел-частотными кепстральными коэффициентами

ОСШ - отношение сигнал/шум

п. п. - процентный пункт

СегОСШ - сегментное отношение сигнал/шум

ТИД - точность идентификации дикторов

УФМ - универсальная фоновая модель

ФКС - функция коррекции спектра

EM - expectation-maximization

LLR - log-likelihood ratio

MOS - mean opinion score

PESQ - perceptual evaluation of speech quality

SB - speech babble

VIN - vehicle interior noise

WSS - weighed spectral slope

Рекомендованный список диссертаций по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК

Введение диссертации (часть автореферата) на тему «Предобработка речевых сигналов в системах автоматической идентификации диктора»

ВВЕДЕНИЕ

Актуальность темы и состояние вопроса. Речь - существенный элемент человеческой деятельности, позволяющий человеку познавать окружающий мир, передавать свои знания и опыт другим людям, аккумулировать их для передачи последующим поколениям. Начиная с древних времен и по сей день она является основным способом обмена информацией между людьми.

Люди в процессе общения способны подсознательно различать голоса других людей. Это связано с тем, что характеристики голоса определяются анатомическими особенностями строения речевого аппарата, которые индивидуальны для каждого человека. Уникальность голоса послужила предпосылкой создания биометрических систем, использующих голос человека в качестве параметра.

Задача распознавания диктора по его голосу была поставлена более 40 лет назад, и исследования в этой области еще продолжаются [28]. Ниже приведены лишь некоторые практические задачи, решение которых требует применения системы распознавания диктора.

- Биометрический контроль доступа. Системы биометрического контроля доступа предназначены для обеспечения безопасности доступа к физическим объектам, информационным и финансовым ресурсам [28]. Верификация человека по голосу не требует применения специализированного дорогостоящего оборудования. Все, что необходимо - обычный микрофон. При этом по уровню надежности голосовая биометрия не уступает, а по некоторым характеристикам превосходит характеристики других систем биометрической идентификации [10].

- Сопоставление голоса подозреваемого и некоторой фонограммы. Технология автоматического распознавания диктора по голосу уже сейчас используется в современных лабораториях

криминалистических исследований как средство анализа фонограмм подозреваемых [26].

- Автоматическое управление тангентой в радиостанциях.

Полудуплексный режим работы широко используется в радиосвязи, однако в условиях занятости рук он может создавать неудобства для пользователя. В качестве решения обычно применяются детекторы речевой активности для автоматического управления тангентой [65]. Однако при этом система может ошибочно активировать тангенту от голоса постороннего человека. Одним из перспективных способов избежать этого является добавление модуля распознавания диктора в радиостанцию.

- Идентификация говорящего в радиостанциях. Если радиостанция предназначена для использования несколькими людьми, то одной из возможностей, повышающей удобство эксплуатации устройства, которое принимает в данный момент сигнал с этой радиостанции, является отображение идентификатора говорящего [81]. Определение идентификатора можно осуществлять с помощью системы распознавания диктора.

- Голосовое управление роботом. Управление с помощью голосовых команд является одним из важнейших естественных способов взаимодействия с роботом [18, 21, 39]. Однако существуют приложения, в которых необходимо ограничить круг лиц, имеющих доступ к управлению. В этом случае перед распознаванием речевой команды возможно выполнять верификацию диктора.

- Голосовое управление подсистемами автомобиля. Голосовое управление такими подсистемами, как кондиционер, навигатор, медиаплеер, уже сейчас внедряется во многие модели автомобилей [2]. Актуальным является создание индивидуальных профилей голосового управления для разных людей, что может

быть реализовано с помощью системы распознавания диктора [91, 101].

Уже сегодня системы распознавания диктора показывают достаточно высокую точность работы, однако присутствие фонового шума способно существенно ее снизить. Одним из наиболее эффективных способов повышения устойчивости систем распознавания диктора к шумам является применение алгоритмов шумоподавления [83].

Проблема восстановления речевого сигнала, искаженного аддитивным некоррелированным шумом, в случае, когда доступен только зашумленный сигнал, широко изучалась в прошлом и актуальна сейчас [13, 93]. Предложены методы подавления шума в частотной области, использующие различные функции коррекции спектра (ФКС), зависящие от апостериорного отношения сигнал/шум (ОСШ) и/или оценки априорного ОСШ. Для ФКС спектрального вычитания [44] оценка априорного ОСШ не требуется. В ином случае она может осуществляться с помощью подхода прямого принятия решения (decision-directed) [51, 93], его модификации на основе двухступенчатого алгоритма (two step noise reduction, TSNR) [85], а также других методов [71, 86]. Для коррекции спектра на практике используются различные ФКС: Винера [70], минимальной среднеквадратичной ошибки кратковременной амплитуды спектра (minimum mean square error short-time spectral amplitude, MMSE-STSA) [51] и др. Помимо методов подавления шума в частотной области существуют и другие подходы [11, 66, 80, 95, 102].

Отметим, что алгоритмы шумоподавления, максимизирующие показатели качества и разборчивости речевых сигналов, не всегда столь эффективны для предобработки сигналов в задаче распознавания диктора. Сложность также представляет подбор параметров таких алгоритмов, т. к. вычислительная сложность существующих методик оценки систем распознавания диктора, как правило, намного выше вычислительной сложности алгоритмов оценки показателей качества и разборчивости речи.

Таким образом, проблема поиска новых алгоритмов предобработки речевых сигналов в задаче распознавания диктора, а также методик оценки их работы является актуальной.

Основополагающие работы по обработке и анализу речевых сигналов связаны с именами таких известных зарубежных и отечественных ученых, как Рабинер Л. [14], Шафер Р. [14], Фланаган Дж. Л. [38], Римский-Корсаков А. В. [15], Сапожков М. А. [24, 25], Михайлов В. Г. [24] и др.

Интерес к задаче распознавания диктора нашел свое отражение исследовательских работах Фуруи С. [53], Атала Б. [40], Бейджи Х. [42], Рейнольдса Д. [45, 89], Кэмпбелла В. [45], Ортега-Гарсия Дж. [83], Матвеева Ю. Н. [3, 10], Новоселова С. А. [11, 82] и др.

В области подавления шума в речевых сигналах наибольшую известность получили работы Болла С. [44], Лима Дж. [70], Ефрайма Я. [50, 51], Малла Д. [50, 51], Маколлея Р. [78], Малпасса М. [78], Скалара П. [85, 86, 92, 93], Плапоса С. [85, 86], Коэна И. [46], Лойзо Ф. [60, 61, 71, 72], Филхо Дж. [92, 93], Ванга Д. [69, 96, 98, 99], Петровского А. А. [13].

Целью работы является разработка и анализ алгоритмов шумоподавления для повышения точности идентификации дикторов в условиях воздействия аддитивных шумов различных типов.

В соответствии с указанной целью в работе поставлены и решены следующие задачи:

- Анализ существующих методов идентификации диктора, алгоритмов подавления шума в частотной области и способов объективной оценки качества речи с целью выбора прототипов для собственных решений.

- Разработка методики быстрой оценки точности идентификации дикторов и создание нового объективного показателя качества на основе нее для возможности быстрого подбора параметров алгоритмов шумоподавления в задаче идентификации диктора.

- Разработка новых алгоритмов подавления шума в речевых сигналах для повышения точности идентификации дикторов по сравнению с существующими решениями.

- Разработка программы для ЭВМ и исследование разработанных алгоритмов с ее помощью.

Методы исследования. При решении поставленных задач применялись методы математического анализа, линейной алгебры и аналитической геометрии, теории вероятности и математической статистики, цифровой обработки сигналов, спектрального анализа. Для исследования разработанных алгоритмов применялись методы математического и компьютерного моделирования.

Объектом исследований являются системы автоматической идентификации диктора с модулем предварительной обработки входных сигналов.

Предметом исследования являются методы и алгоритмы идентификации диктора, шумоподавления в частотной области, оценки качества речевых сигналов.

Научная новизна. Впервые получены следующие научные результаты:

- Произведена оценка тесноты статистической связи между точностью идентификации дикторов для двух баз речевых сигналов и показателями качества речи: РББР, отношение сигнал/шум, сегментное отношение сигнал/шум, ЬЬЯ, WSS.

- Разработан объективный показатель качества речевых сигналов, позволяющий оценить эффективность работы алгоритма шумоподавления в задаче идентификации диктора.

- Разработана методика быстрой оценки точности идентификации дикторов.

- Предложен новый подход к оценке мягкой маски, который может стать прототипом для широкого класса алгоритмов шумоподавления.

- Разработан новый двухступенчатый алгоритм на основе мягкой маски и функции коррекции спектра минимальной среднеквадратичной ошибки кратковременной амплитуды спектра.

Практическая значимость

- Методика быстрой оценки точности идентификации дикторов позволяет подбирать параметры алгоритмов шумоподавления быстрее, чем при использовании прямой оценки с помощью системы идентификации диктора. В частном случае достигнуто ускорение приблизительно в 88 раз.

- Предложенный двухступенчатый алгоритм на основе мягкой маски и функции коррекции спектра минимальной среднеквадратичной ошибки кратковременной амплитуды спектра позволяет повысить точность идентификации дикторов в среднем (среди ОСШ 5 дБ, 10 дБ, 15 дБ) для АБГШ на 13,4 процентных пункта (п. п.) по сравнению с алгоритмом на основе подхода прямого принятия решения и функции коррекции спектра Винера.

- Разработана программа «Speaker Recognition Test Framework -программа для исследования алгоритмов распознавания диктора» (свидетельство о государственной регистрации программы для ЭВМ № 2015660245), которая предназначена для исследования алгоритмов распознавания диктора (идентификации и верификации) в условиях шумов.

- Разработана программа «NN-SCG speech recognition - научно-исследовательская программа по изучению алгоритмов нейросетевого дикторонезависимого распознавания речевых команд» (свидетельство о государственной регистрации программы для ЭВМ № 2015616920), с помощью которой может быть проведен анализ предложенных алгоритмов шумоподавления в задаче дикторонезависимого распознавания речевых команд.

Результаты работы внедрены в соответствующие разработки ООО «Оскар» (г. Ярославль) и ООО «Эймс Софтвэр» (г. Ярославль). Отдельные результаты диссертационной работы внедрены в учебный процесс Ярославского государственного университета им. П. Г. Демидова в рамках дисциплины «Цифровая обработка речевых сигналов». Все результаты внедрения подтверждены соответствующими актами (приложение № 1).

Достоверность материалов диссертационной работы подтверждена согласованностью результатов математического моделирования разработанных алгоритмов и экспериментальной проверки в условиях компьютерного моделирования с использованием реальных речевых сигналов, апробацией в печати и на научно-практических конференциях различного уровня.

Апробация работы. Результаты работы докладывались и обсуждались на следующих конференциях:

- 14-й и 15-й Международной конференции «Цифровая обработка сигналов и её применение», Москва, 2012-2013;

- Международной конференции «Системы синхронизации, формирования и обработки сигналов в инфокоммуникациях», Ярославль, 2013;

- 11-й и 12-й Международных научно-технических конференциях «Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации», Курск, 2013, 2015;

- Международной конференции «Перспективные технологии в средствах передачи информации», Владимир, 2013;

- Международной научно-практической молодежной конференции «Путь в науку», Ярославль, 2013-2015;

- 66-й Всероссийской НТК студентов, магистрантов и аспирантов с международным участием, Ярославль, 2013;

- 69-й Международной конференции «Радиоэлектронные устройства и системы для инфокоммуникационных технологий», Москва, 2014;

- 15-й Всероссийской научно-практической конференции «Проблемы развития и применения средств противовоздушной обороны на современном этапе», Ярославль, 2014.

Публикации. По теме диссертации опубликовано 19 научных работ, из них 3 статьи в журналах, рекомендованных ВАК для публикации результатов кандидатских и докторских диссертаций [18, 21, 22], 16 докладов на научных конференциях [1, 4-8, 19, 20, 27, 31-37]. Получено 2 свидетельства о регистрации программы для ЭВМ [17, 30].

Личный вклад автора. Выносимые на защиту положения предложены и реализованы автором самостоятельно в ходе выполнения научно-исследовательских работ на кафедре динамики электронных систем Ярославского государственного университета им. П. Г. Демидова.

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы и двух приложений. Содержание работы изложено на 133 страницах. Список литературы включает 102 наименования. В работе представлено 24 рисунка и 37 таблиц.

В первой главе произведен обзор современных способов идентификации диктора. Подробно описан широко используемый алгоритм идентификации диктора на основе мел-частотных кепстральных коэффициентов и моделей гауссовых смесей с применением универсальной фоновой модели. Рассмотрена задача идентификации диктора в условиях шумов. Проведен обзор современных способов подавления шума в частотной области. Рассмотрена проблема оценки качества речевых сигналов.

Во второй главе поставлена проблема подбора параметров алгоритмов шумоподавления для использования в системе идентификации диктора. Определена теснота статистической связи между точностью идентификации дикторов и различными показателями качества речи. Предложена альтернативная оценка точности идентификации дикторов. Предложена

быстрая оценка точности идентификации дикторов. Произведен подбор параметра двухступенчатого алгоритма шумоподавления на основе функции коррекции спектра минимальной среднеквадратичной ошибки кратковременной амплитуды спектра.

В третьей главе предложена модификация двухступенчатого алгоритма шумоподавления. Обобщено понятие «мягкая маска». Предложен новый подход к оценке мягкой маски. Предложен двухступенчатый алгоритм на основе нее. Произведено сравнение алгоритмов шумоподавления в задаче идентификации диктора.

Основные научные положения и результаты, выносимые на защиту:

- Методика быстрой оценки точности идентификации дикторов, позволяющая подбирать параметры алгоритмов шумоподавления быстрее, чем при использовании системы идентификации диктора.

- Новый подход к оценке мягкой маски, который может стать прототипом для широкого класса алгоритмов шумоподавления.

- Двухступенчатый алгоритм на основе мягкой маски и функции коррекции спектра минимальной среднеквадратичной ошибки кратковременной амплитуды спектра.

Благодарности. Автор выражает искреннюю признательность своему научному руководителю - д.т.н., профессору Ю. А. Брюханову, а также д.т.н., доценту А. Л. Приорову. Особая благодарность к.т.н. А. И. Топникову за постоянную поддержку в формировании взглядов в научном направлении диссертационной работы.

Также автор благодарен коллегам-аспирантам за интересные научные дискуссии и ценные советы.

Отдельная благодарность родным и близким за терпение и предоставленную возможность заниматься научной деятельностью.

ГЛАВА 1. ОБЗОР СОВРЕМЕННЫХ СИСТЕМ ИДЕНТИФИКАЦИИ ДИКТОРА И АЛГОРИТМОВ ШУМОПОДАВЛЕНИЯ В РЕЧЕВЫХ СИГНАЛАХ

Задача распознавания диктора по его голосу была поставлена более 40 лет назад, и исследования в этой области еще продолжаются [28]. Ниже приводится обзор современных методов автоматической идентификации диктора по голосу, алгоритмов подавления шума, используемых для предобработки речевых сигналов, и показателей качества речи.

1.1. Система идентификации диктора

1.1.1. Классификация задач распознавания диктора

Различают задачу верификации и идентификации диктора [14, 53]. Верификация диктора - процесс, при котором представленный образец голоса сравнивается с хранимой в базе моделью диктора. В результате принимается положительное, либо отрицательное решение об их соответствии [42].

Идентификация диктора - процесс определения личности по образцу голоса путем сравнения данного образца с моделями дикторов, сохраненными в базе. В общем случае результатом процесса идентификации является список моделей - кандидатов на соответствие представленному образцу голоса [12, 42].

Если предусмотрена возможность участия в процессе идентификации пользователя, не зарегистрированного в системе (для которого отсутствует модель в базе), то говорят об идентификации на открытом множестве (или открытой задаче идентификации диктора). В идеальном случае для такого пользователя система должна выдать пустой список кандидатов на соответствие. Если все пользователи, проходящие процедуру идентификации, зарегистрированы в системе, то говорят об идентификации на замкнутом множестве (или закрытой задаче идентификации диктора) [12, 42].

Задача распознавания диктора также разделяется на текстозависимую и текстонезависимую [34, 35, 53]. Если системе распознавания известен текст, который должен быть произнесен пользователем, и она использует данную информацию, то такую систему называют текстозависимой. При текстозависимом распознавании могут использоваться как фиксированные фразы, так и фразы, сгенерированные системой и предложенные пользователю [12]. Текстонезависимые системы не используют информацию о тексте, произнесенном пользователем.

Отметим, что помимо верификации и идентификации существуют и другие задачи, связанные с распознаванием личности по голосу. К их числу можно отнести задачу обнаружения по голосу (speaker detection) [87] и протоколирование дикторов (speaker diarization) [16].

Далее в работе будет рассматриваться система текстонезависимой идентификации диктора на замкнутом множестве, для которой производится поиск только одного кандидата на соответствие представленному образцу голоса. Однако стоит отметить, что предлагаемые в работе методики и алгоритмы могут применяться и в других задачах распознавания диктора. Это связано с тем, что системы распознавания диктора схожи по структуре и отличаются, как правило, только блоком принятия решения [14].

1.1.2. Структура системы идентификации диктора

Система идентификации диктора имеет два режима работы: режим регистрации пользователей в системе (режим обучения) и режим идентификации [12].

Блок-схема работы системы идентификации диктора в режиме обучения представлена на рис. 1.1. Каждый пользователь предварительно регистрируется в системе, записав образец своего голоса. В блоке предобработки производится очистка входного речевого сигнала от шума с помощью различных алгоритмов. Далее производится извлечение из речевого

сигнала релевантных (для задачи распознавания диктора) информативных признаков. На последнем этапе обучения строится модель диктора.

Рис. 1.1. Блок-схема процесса обучения системы идентификации диктора

Блок-схема работы системы в режиме идентификации представлена на рис. 1.2. Извлеченные из входного речевого сигнала информативные признаки поступают на вход блока классификации, где определяется, какому диктору соответствует представленный речевым сигналом образец голоса.

Рис. 1.2. Блок-схема процесса идентификации диктора

1.1.3. Информативные признаки речевого сигнала

Целью извлечения из речевого сигнала информативных признаков (далее

просто - «признаков») является выделение информации, релевантной для

задачи распознавания личности по голосу, т. е. информации, представляющей

индивидуальные особенности голоса человека [12]. Для этих целей наиболее

широко применяются мел-частотные кепстральные коэффициенты (МЧКК,

17

Mel-Frequency Cepstral Coefficients, MFCC) [6, 7, 18-20, 22, 49]. Способ их получения во многом «копирует» особенности слуховой системы человека.

Помимо МЧКК для задачи идентификации диктора также часто применяются кепстральные коэффициенты на основе линейного предсказания (LPCC, Linear Prediction Cepstral Coefficients) [40]. Иногда их объединяют в один вектор с МЧКК [10].

1.1.4. Мел-частотные кепстральные коэффициенты

На вход алгоритма извлечения МЧКК подаются отсчеты чистого сигнала xn, либо их оценка, полученная с помощью предобработки алгоритмом шумоподавления. Отсчеты сигнала разбиваются на перекрывающиеся окна и производится дискретное преобразование Фурье (ДПФ). Подробно данный процесс описан в разделе 1.2.5.

Рассмотрим одно окно полученного спектра сигнала. Для него может быть рассчитан квадрат модуля спектра A, (k - номер спектрального отсчета),

который будет использоваться для дальнейшей обработки. Преобразование, подобное переходу от сигнала во временной области к квадрату модуля спектра сигнала, происходит и в органах слуха: человеческая улитка вибрирует в разных точках в зависимости от частоты поступающих звуков. Эти вибрации возбуждают нервы, информируя мозг о присутствующих частотах [79].

Спектрограмма содержит много лишней информации, которая не требуется для работы системы идентификации диктора. Поэтому полученное представление спектра мощности речевого сигнала разбивают на диапазоны с помощью банка треугольных фильтров (рис. 1.3).

Значения Aк в каждом диапазоне суммируются. Таким образом становится возможным узнать лишь мощность около некоторой частоты, но не точное ее значение на данной частоте. Подобные свойством обладает и человеческая улитка: она не чувствует разницы между двумя близкими

частотами, причем данный эффект усиливается при увеличении частоты [15, 38]. Дело в том, что человеческое ухо воспринимает частоту звука не линейно, а по специальной шкале, называемой мел-шкалой [24, 25, 79].

Частота, Гц

Рис. 1.3. АЧХ банка из 6 треугольных фильтров

Зависимость частоты в мелах от частоты в Герцах показана на рис. 1.4 и может быть выражена формулой:

т = М(/) = 1127 • 1^1 + ^, (1.1)

где т - частота в мелах, / - частота в Герцах. Обратное преобразование может быть выполнено следующим образом:

/ = ^ (т) = 70оГ ехрГ-^- 1-1 .

' V V1127) J

Повторяя данную особенность слуха человека, мел-шкала используется и для получения банка треугольных фильтров. В данной шкале ширина полосы пропускания и форма каждого фильтра идентичны, а центральная частота увеличивается линейно с возрастанием номера фильтра в банке.

2500

2000

1500

1000

500

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 50505050505050505050505050

*Ч*Ч*Ч*Ч*Ч*Ч*ЧГМГМГМГМГМГМГОГОГОГОГОГО(Г)

Частота в Герцах

Рис. 1.4. Зависимость частоты в мелах от частоты в Герцах

0

Алгоритм расчета треугольных фильтров следующий:

1. Задается число треугольных фильтров в банке - с, исследуемый диапазон частот - (¡1ст, /Ыф).

2. Границы диапазона частот переводятся в мелы (тш, т1(Ш) по формуле (1.1).

3. Рассчитываются значения центральных частот с + 2 треугольных фильтров в мелах:

х . тШ?к ~ ты

= т-+'-"СТТ",

I = 0...С +1.

Первый (1 = о) и последний (\ = с +1) фильтры реализованы не будут, но значения их центральных частот необходимы для дальнейших расчетов.

4. Значения центральных частот треугольных фильтров переводятся в номера спектральных отсчетов:

«= Мр {■> •) >

к

где М - число спектральных отсчетов в окне, Fs - частота

дискретизации речевого сигнала. 5. АЧХ /-го фильтра в банке рассчитывается следующим образом:

к < —

ник =

0

к - и

к и - -к-

и - к

и - к-

0

к- < к < к и

к- < к <

к > К,,

1 = 1...С.

Полученный банк фильтров применяется к квадрату модуля спектра сигнала Л?:

М

Ь =£ НикЛ1. к=1

После этого рассчитывается натуральный логарифм Ь1:

ЬП = 1п( Ь,).

Переход к логарифмическому масштабу также связан с особенностями слуховой системы: человек ощущает громкость не в линейном масштабе [15, 79].

Финальный этап - расчет дискретного косинусного преобразования (ДКП) типа II от Ь :

С Ип Г Ж _ \Л1С с = 1

ис =УЬео;! —(2- 1)(с-1). , .-

с ^ ' 2С А ') \4пС 2 < с < С,

с

г=1

с = 1...С.

ДКП рассчитывается по следующим причинам:

1. Поскольку треугольные фильтры в банке перекрывают друг друга (см. рис. 1.3), между коэффициентами Ь имеется корреляция. ДКП позволяет выполнить их декорреляцию, благодаря которой ковариационные матрицы становятся близки к диагональным [79]. Это свойство может быть важно при получении модели диктора.

2. ДКП позволяет более компактно представить важную для распознавания диктора информацию и, отбросив наименее значимые коэффициенты ис, получить выигрыш в вычислительной сложности алгоритма и качестве идентификации. При получении МЧКК для задачи идентификации диктора обычно отбрасывают:

a. старшие коэффициенты ДКП, которые отражают быстрые изменения Ь [79];

b. первый коэффициент ДКП, который равен среднему значению Ь (умноженному на 4с ) [12].

Для задачи идентификации диктора обычно берется 24 треугольных фильтра (с = 24). При этом число используемых коэффициентов в различных источниках указывается разное. В данной работе хорошие результаты были получены при использовании коэффициентов со 2-го по 16-й (остальные отбрасываются).

Выше было рассмотрено извлечение МЧКК из одного окна речевого сигнала. Для других окон может быть выполнено аналогичное преобразование и получены МЧКК для всего сигнала - - номер окна).

Для моделирования диктора удобно записывать МЧКК в векторном виде. В этом случае:

и1...с ^ х

где W - число окон в сигнале, хк - вектор-столбец признаков для окна w.

1.1.5. Обработка информативных признаков

Многим способам моделирования диктора не важен порядок следования окон в речевом сигнале - они используют набор векторов признаков как выборку. Поэтому для того, чтобы сохранить информацию о динамике речи, исходные векторы признаков иногда объединяют с их первыми и, возможно, вторыми производными по номеру окна [12, 79].

Похожие диссертационные работы по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК

Список литературы диссертационного исследования кандидат наук Тупицин Геннадий Сергеевич, 2015 год

СПИСОК ЛИТЕРАТУРЫ

1. Веселов, И.А. Использование априорного отношения сигнал/шум для построения бинарных масок в задаче подавления шума в речевых сигналах / И.А. Веселов, А.В. Куликов, Я.М. Скопинцев, Г.С. Тупицин // доклад 15-ой международной конференции «Цифровая обработка сигналов и её применение». - Москва, 2013. - С. 246-249.

2. Голосовое управление [Электронный ресурс]. - Режим доступа: http://support.volvocars.com/ru/Pages/category.aspx?category=a34eeaae023d8de2 c0a801511f6ab0bc.

3. Козлов, А.В. Система идентификации дикторов по голосу для конкурса NIST SRE 2013 / А.В. Козлов, О.Ю. Кудашев, Ю.Н. Матвеев, Т.С. Пеховский, К.К. Симончик, А.К. Шулипа // Труды СПИИРАН. - 2013. - № 2. - С. 350370.

4. Кравцов, С.А. Алгоритм неэталонной оценки степени зашумлённости речевых сигналов / С.А. Кравцов, Г.С. Тупицин, М.В. Сагациян, А.В. Куликов // доклад 14-ой международной конференции «Цифровая обработка сигналов и её применение». - Москва, 2012. - С. 177-179.

5. Кравцов, С.А. Алгоритм обнаружения речевой активности на основе моделей гауссовых смесей / С.А. Кравцов, Г.С. Тупицин // доклад 15 всероссийской научно-практической конференции «Проблемы развития и применения средств противовоздушной обороны на современном этапе». -Ярославль, 2014. - С. 39-44.

6. Кравцов, С.А. Разработка и исследование нейросетевого алгоритма дикторонезависимого распознавания слов в устной речи / С.А. Кравцов, М.В. Сагациян, Г.С. Тупицин // доклад 15-ой международной конференции «Цифровая обработка сигналов и её применение». - Москва, 2013. - С. 252255.

7. Куликов, А.В. Зависимость точности дикторонезависимого распознавания речевых команд базовым нейросетевым алгоритмом от количества обучающих дикторов / А.В. Куликов, М.В. Сагациян, Г.С. Тупицин // доклад международной конференции «Системы синхронизации, формирования и обработки сигналов в инфокоммуникациях». - Ярославль, 2013. - С. 119-121.

8. Куликов, А.В. Использование априорного отношения сигнал/шум для построения бинарных масок в задаче идентификации диктора / А.В. Куликов, М.В. Сагациян, Г.С. Тупицин // доклад международной конференции «Системы синхронизации, формирования и обработки сигналов в инфокоммуникациях». - Ярославль, 2013. - С. 168-170.

9. Левин, Е.К. Разработка средств исследования и повышения помехоустойчивости систем автоматического распознавания голосовых команд в телефонии: диссертация ... доктор технических наук: 05.12.13 / Е.К. Левин. - Владимир: Владимирский государственный университет имени Александра Григорьевича и Николая Григорьевича Столетовых, .

10. Матвеев, Ю.Н. Технология биометрической идентификации личности по голосу и другим модальностям / Ю.Н. Матвеев // Вестник МГТУ им. Н.Э. Баумана. Сер. «Приборостроение». - 2012. - № 3. - С. 46-61.

11. Новоселов, С.А. Подавление шума в речевых сигналах на основе метода нелокального усреднения / С.А. Новоселов, А.И. Топников, А.И. Савватин, А.Л. Приоров // Цифровая обработка сигналов. - 2011. - № 4. - С. 23-28.

12. Первушин, Е.А. Обзор основных методов распознавания дикторов / Е.А. Первушин // Математические структуры и моделирование. - 2011. - № 24. -С. 41-54.

13. Петровский, А.А. Шумоподавление на основе перцептуальных алгоритмов спектрального вычитания и обработки сигналов в подпространствах / А.А. Петровский, И.С. Азаров, Д.С. Лихачёв, Ю.Н. Ромашкин, Ю.Н. Жигулёвцев, А.А. Харламов // Речевые технологии. - 2012. - № 4. - С. 4-15.

14. Рабинер, Л.Р. Цифровая обработка речевых сигналов: Пер. с англ. / Л.Р. Рабинер, Р.В. Шафер / ред. М.В. Назаров, Ю.Н. Прохоров. - М.: Радио и связь, 1981. - 496 с.

15. Римский-Корсаков, А.В. Электроакустика / А.В. Римский-Корсаков. - М.: Связь, 1973. - 272 с.

16. Ронжин, А.Л. Система протоколирования дикторов на базе алгоритма определения речевой активности в многоканальном аудиопотоке / А.Л. Ронжин, В.Ю. Будков // Речевые технологии. - 2010. - Т. 3. - С. 98-102.

17. Сагациян, М.В. NN-SCG speech recognition - научно-исследовательская программа по изучению алгоритмов нейросетевого дикторонезависимого распознавания речевых команд / М.В. Сагациян, Г.С. Тупицин // Свидетельство о государственной регистрации программы для ЭВМ № 2015616920 от 30 апреля 2015 г.

18. Сагациян, М.В. Анализ эффективности нейросетевых алгоритмов в задаче дикторонезависимого распознавания речевых команд / М.В. Сагациян, Г.С. Тупицин // Информационные системы и технологии. - 2015. - № 3. - С. 1626.

19. Сагациян, М.В. Зависимость точности дикторонезависимого распознавания речевых команд нейросетевым алгоритмом от количества обучающих дикторов / М.В. Сагациян, Г.С. Тупицин // доклад 11-й международной научно-технической конференции «Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации». - Курск, 2013. - С. 189-191.

20. Сагациян, М.В. Обучение нейронной сети алгоритмом SCG в задаче дикторонезависимого распознавания речи / М.В. Сагациян, Г.С. Тупицин // доклад 12-й международной научно-технической конференции «Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации». - Курск, 2015. - С. 312314.

21. Сагациян, М.В. Повышение эффективности коллективного нейросетевого алгоритма в задаче дикторонезависимого распознавания речевых команд в условиях шумов / М.В. Сагациян, Г.С. Тупицин, С.А. Кравцов, А.Л. Приоров // Информационные системы и технологии. - 2015. - № 4. - С. 39-46.

22. Сагациян, М.В. Разработка и исследование нейросетевого алгоритма дикторонезависимого распознавания речевых команд / М.В. Сагациян, А.В. Куликов, Г.С. Тупицин // Вестник Поволжского государственного технологического университета. - 2014. - Т. 20. - № 1. - С. 62-68.

23. Садыхов, Р.Х. Модели гауссовых смесей для верификации диктора по произвольной речи / Р.Х. Садыхов, В.В. Ракуш // Доклады БГУИР. - Минск, 2003. - С. 95-103.

24. Сапожков, М.А. Вокодерная связь / М.А. Сапожков, В.Г. Михайлов. - М.: Радио и связь, 1983. - 248 с.

25. Сапожков, М.А. Речевой сигнал в кибернетике и связи / М.А. Сапожков. -М.: Связьиздат, 1963. - 452 с.

26. Симончик, К.К. Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация: автореферат диссертации ... кандидата технических наук: 05.13.18 / К.К. Симончик. -Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В. И. Ульянова (Ленина), 2010.

27. Скопинцев, Я.М. Использование бинарных масок для повышения качества закрытой текстонезависимой идентификации диктора в условиях шумов / Я.М. Скопинцев, Г.С. Тупицин // доклад 69-й Международной конференции «Радиоэлектронные устройства и системы для инфокоммуникационных технологий». - Москва, 2014. - С. 392-395.

28. Сорокин, В.Н. Распознавание личности по голосу: аналитический обзор /

B.Н. Сорокин, В.В. Вьюгин, А.А. Тананыкин // Информационные процессы. -2012. - Т. 12. - № 1. - С. 1-30.

29. Топников, А.И. Оценка разборчивости и обработка речевых сигналов в задаче шумоподавления: диссертация ... кандидата технических наук: 05.12.04 / А.И. Топников. - Владимир: Владимирский государственный университет имени Александра Григорьевича и Николая Григорьевича Столетовых, 2012.

30. Тупицин, Г.С. Speaker Recognition Test Framework - программа для исследования алгоритмов распознавания диктора / Г.С. Тупицин, А.И. Топников, А.Л. Приоров // Свидетельство о государственной регистрации программы для ЭВМ № 2015660245 от 25 сентября 2015 г.

31. Тупицин, Г.С. Использование бинарных масок для повышения качества идентификации диктора / Г.С. Тупицин, М.В. Сагациян // доклад 3-й международной научно-практической молодежной конференции «Путь в науку». - Ярославль, 2014. - С. 91.

32. Тупицин, Г.С. Оценка априорного отношения сигнал-шум для построения бинарных масок в задаче речевого шумоподавления / Г.С. Тупицин, А.В. Куликов // доклад 2-й международной научно-практической молодежной конференции «Путь в науку». - Ярославль, 2013. - С. 90.

33. Тупицин, Г.С. Повышение качества закрытой текстонезависимой идентификации диктора в условия шумов с помощью бинарных масок / Г.С. Тупицин, М.В. Сагациян, С.А. Кравцов // доклад 15 всероссийской научно -практической конференции «Проблемы развития и применения средств противовоздушной обороны на современном этапе». - Ярославль, 2014. -

C. 137-144.

34. Тупицин, Г.С. Повышение качества закрытой текстонезависимой идентификации диктора в условиях шумов с помощью бинарных масок / Г.С. Тупицин, М.В. Сагациян // доклад 12-й международной научно-технической конференции «Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации». - Курск, 2015. - С. 376-378.

35. Тупицин, Г.С. Повышение качества закрытой текстонезависимой идентификации диктора с помощью бинарных масок / Г.С. Тупицин, М.В. Сагациян // доклад 4-й международной научно-практической молодежной конференции «Путь в науку». - Ярославль, 2015. - С. 87.

36. Тупицин, Г.С. Повышение качества идентификации диктора в условиях шумов с помощью бинарных масок / Г.С. Тупицин, А.В. Куликов, М.В.

Сагациян // доклад международной конференции «Перспективные технологии в средствах передачи информации». - Владимир, 2013. - С. 180— 182.

37. Тупицин, Г.С. Построение бинарных масок с использованием оценки априорного отношения сигнал-шум / Г.С. Тупицин, А.В. Куликов // доклад 66-й всероссийской НТК студентов, магистрантов и аспирантов с международным участием. — Ярославль, 2013. — С. 733.

38. Фланаган, Д.Л. Анализ, синтез и восприятие речи: Пер. с англ. / Д.Л. Фланаган / ред. А.А. Пирогов. — Связь, 1968. — 397 с.

39. Шарий, Т.В. Голосовое управление мобильным роботом на основе когнитивной модели FCAS / Т.В. Шарий // Искуственный интеллект. — 2014.

— № 2. — С. 75—84.

40. Atal, B.S. Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification / B.S. Atal // The Journal of the Acoustical Society of America. — 1974. — Vol. 55. — № 6. — P. 1304.

41. Bai, J. Robust speaker recognition integrating pitch and Wiener filter / J. Bai, R. Zheng, B. Xu, S. Zhang // SympoTIC '04. Joint 1st Workshop on Mobile Future & Symposium on Trends In Communications (IEEE Cat. No.04EX877). — IEEE, 2004. — P. 69—72.

42. Beigi, H. Fundamentals of Speaker Recognition / H. Beigi. — Boston, MA: Springer US, 2011. — 942 p.

43. Bhattacharjee, U. Performance Evaluation of Wiener Filter and Kalman Filter Combined with Spectral Subtraction in Speaker Verification System / U. Bhattacharjee, P. Das // International Journal of Innovative Technology and Exploring Engineering (IJITEE). — 2013. — Vol. 2. — № 2. — P. 108—112.

44. Boll, S. Suppression of acoustic noise in speech using spectral subtraction / S. Boll // IEEE Transactions on Acoustics, Speech, and Signal Processing. — 1979. — Vol. 27. — № 2. — P. 113—120.

45. Campbell, W.M. Support vector machines for speaker and language recognition / W.M. Campbell, J.P. Campbell, D.A. Reynolds, E. Singer, P.A. Torres-Carrasquillo // Computer Speech & Language. — 2006. — Vol. 20. — № 2-3.

— P. 210—229.

46. Cohen, I. Noise Reduction in Speech Processing: Springer Topics in Signal Processing. Vol. 2 / I. Cohen, Y. Huang, J. Chen, J. Benesty. — Berlin, Heidelberg: Springer Berlin Heidelberg, 2009.

47. Crochiere, R. An interpretation of the log likelihood ratio as a measure of waveform coder performance / R. Crochiere, J. Tribolet, L. Rabiner // IEEE Transactions on Acoustics, Speech, and Signal Processing. - 1980. - Vol. 28. -№ 3. - P. 318-323.

48. Cummins, F. The CHAINS Speech Corpus: CHAracterizing INdividual Speakers / F. Cummins, M. Grimaldi, T. Leonard, J. Simko // Proc of SPECOM. -2006. - P. 1-6.

49. Davis, S. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences / S. Davis, P. Mermelstein // IEEE Transactions on Acoustics, Speech, and Signal Processing. - 1980. - Vol. 28. -№ 4. - P. 357-366.

50. Ephraim, Y. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator / Y. Ephraim, D. Malah // IEEE Transactions on Acoustics, Speech, and Signal Processing. - 1985. - Vol. 33. - № 2. - P. 443-445.

51. Ephraim, Y. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator / Y. Ephraim, D. Malah // IEEE Transactions on Acoustics, Speech, and Signal Processing. - 1984. - Vol. 32. - № 6. - P. 11091121.

52. ETSI ES 202 050 V1.1.5 (2007-01) Speech processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms [Электронный ресурс]. - Режим доступа:

http://www.etsi.org/deliver/etsi_es/202000_202099/202050/01.01.05_60/es_20205 0v010105p.pdf.

53. Furui, S. An overview of speaker recognition technology / S. Furui // ESCA Workshop on Automatic Speaker Recognition, Identification, and Verification. -1994. - P. 31-56.

54. Gauvain, J.-L. Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains / J.-L. Gauvain, Chin-Hui Lee // IEEE Transactions on Speech and Audio Processing. - 1994. - Vol. 2. - № 2. - P. 291298.

55. Grundlehner, B. Performance Assessment Method for Speech Enhancement Systems / B. Grundlehner, J. Lecocq, R. Balan, J. Rosca // in Proc. 1st Annu. IEEE BENELUX/DSP Valley Signal Process. Symp. - 2005. - P. 1-4.

56. Hamming window - MATLAB hamming [Электронный ресурс]. - Режим доступа: http: //www.mathworks .com/help/signal/ref/hamming.html.

57. Hansen, J.H.L. An Effective Quality Evaluation Protocol For Speech Enhancement Algorithms / J.H.L. Hansen, B.L. Pellom // Proc. Int. Conf. on Spoken Language Processing (ICSLP), Sydney, Australia. - 1998. - P. 2819-2822.

58. Heck, L.P. Handset-dependent background models for robust text-independent speaker recognition / L.P. Heck, M. Weintraub // 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing. - 1997. - Vol. 2. -

P. 1071-1074.

59. Hirsch, H. Noise estimation techniques for robust speech recognition / H. Hirsch, C. Ehrlicher // 1995 International Conference on Acoustics, Speech, and Signal Processing. - IEEE, 1995. - Vol. 1. - P. 153-156.

60. Hu, Y. Evaluation of Objective Quality Measures for Speech Enhancement / Y. Hu, P.C. Loizou // IEEE Transactions on Audio, Speech, and Language Processing. - 2008. - Vol. 16. - № 1. - P. 229-238.

61. Hu, Y. Techniques for estimating the ideal binary mask / Y. Hu, P. Loizou // Proc. 11th Int. Workshop Acoust. Echo Noise Control. - 2008. - P. 154-157.

62. International Telecommunication Union. P.800: Methods for subjective determination of transmission quality / International Telecommunication Union // ITU-T Recommendation. - 1996. - Vol. 800.

63. International Telecommunication Union. P.862: Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs / International Telecommunication Union // ITU-T Recommendation. - 2001. - Vol. 862. -

P. 862.

64. Jensen, J. Spectral Magnitude Minimum Mean-Square Error Estimation Using Binary and Continuous Gain Functions / J. Jensen, R.C. Hendriks // IEEE Transactions on Audio, Speech, and Language Processing. - 2012. - Vol. 20. -№ 1. - P. 92-102.

65. Kepuska, V.Z. Voice activity detector of wake-up-word speech recognition system design on FPGA / V.Z. Kepuska, M.M. Eljhani, B.H. Hight // International Journal of Engineering Research and Applications. - 2015. - Vol. 4. - № 12. -

P. 160-168.

66. Khaldi, K. A new EMD denoising approach dedicated to voiced speech signals / K. Khaldi, M. Turki-Hadj Alouane, A.-O. Boudraa // 2008 2nd International Conference on Signals, Circuits and Systems. - IEEE, 2008. - P. 1-5.

67. Klatt, D. Prediction of perceived phonetic distance from critical-band spectra: A first step / D. Klatt // ICASSP '82. IEEE International Conference on Acoustics,

Speech, and Signal Processing. - Institute of Electrical and Electronics Engineers, 1982. - Vol. 7. - P. 1278-1281.

68. Kondo, K. Subjective Quality Measurement of Speech: Signals and Communication Technology / K. Kondo. - Berlin, Heidelberg: Springer Berlin Heidelberg, 2012.

69. Li, Y. On the optimality of ideal binary time-frequency masks / Y. Li, D. Wang // 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. - IEEE, 2008. - P. 3501-3504.

70. Lim, J. Enhancement and bandwidth compression of noisy speech / J. Lim, A. Oppenheim // Proceedings of the IEEE. - 1979. - Vol. 67. - № 12. - P. 15861604.

71. Lu, Y. A geometric approach to spectral subtraction / Y. Lu, P.C. Loizou // Speech Communication. - 2008. - Vol. 50. - № 6. - P. 453-466.

72. Lu, Y. Estimators of the Magnitude-Squared Spectrum and Methods for Incorporating SNR Uncertainty / Y. Lu, P.C. Loizou // IEEE Transactions on Audio, Speech, and Language Processing. - 2011. - Vol. 19. - № 5. - P. 11231137.

73. Mandasari, M.I. The effect of noise on modern automatic speaker recognition systems / M.I. Mandasari, M. McLaren, D.A. van Leeuwen // 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). -IEEE, 2012. - P. 4249-4252.

74. Martin, R. Spectral Subtraction Based on Minimum Statistics / R. Martin // Proc. EUSIPCO 94. - 1994. - № 1. - P. 1182-1185.

75. Martin, R. Speech Enhancement in the DFT Domain using Laplacian Speech Priors / R. Martin, C. Breithaupt // Iwaenc 2003. - 2003. - P. 87-90.

76. Martin, R. Speech enhancement using MMSE short time spectral estimation with gamma distributed speech priors / R. Martin // IEEE International Conference on Acoustics Speech and Signal Processing. - IEEE, 2002. - P. I-253-I-256.

77. May, T. Noise-Robust Speaker Recognition Combining Missing Data Techniques and Universal Background Modeling / T. May, S. van de Par, A. Kohlrausch // IEEE Transactions on Audio, Speech, and Language Processing. -2012. - Vol. 20. - № 1. - P. 108-121.

78. McAulay, R. Speech enhancement using a soft-decision noise suppression filter / R. McAulay, M. Malpass // IEEE Transactions on Acoustics, Speech, and Signal Processing. - 1980. - Vol. 28. - № 2. - P. 137-145.

79. Mel Frequency Cepstral Coefficient (MFCC) tutorial - Practical cryptography [Электронный ресурс]. - Режим доступа:

http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/.

80. Mysore, G.J. A non-negative approach to semi-supervised separation of speech from noise with the use of temporal dynamics / G.J. Mysore, P. Smaragdis // 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE, 2011. - P. 17-20.

81. Next generation of push-to-talk [Электронный ресурс]. - Режим доступа: http://www.business.att.com/content/whitepaper/Next-Generation-Push-To-Talk.pdf.

82. Novoselov, S. STC Speaker Recognition System for the NIST i-Vector Challenge / S. Novoselov, T. Pekhovsky, K. Simonchik // Odyssey: The Speaker and Language Recognition Workshop. - 2014. - P. 231-240.

83. Ortega-Garcia, J. Overview of speech enhancement techniques for automatic speaker recognition / J. Ortega-Garcia, J. Gonzalez-Rodriguez // Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP '96. -IEEE, 1996. - Vol. 2. - P. 929-932.

84. Perez-meana, H. Advances in Audio and Speech Signal Processing / H. Perez-meana / ed. H. Perez-Meana. - IGI Global, 2007.

85. Plapous, C. A two-step noise reduction technique / C. Plapous, C. Marro, L. Mauuary, P. Scalart // 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing. - 2004. - Vol. 1. - P. 289-92.

86. Plapous, C. Improved Signal-to-Noise Ratio Estimation for Speech Enhancement / C. Plapous, C. Marro, P. Scalart // IEEE Transactions on Audio, Speech and Language Processing. - 2006. - Vol. 14. - № 6. - P. 2098-2108.

87. Przybocki, M.A. The 1999 NIST Speaker Recognition Evaluation Using Summed Two-Channel Telephone Data for Speaker Detection and Speaker Tracking / M.A. Przybocki, A.F. Martin // Digital Signal Processing. - 2000. -Vol. 10. - № 3. - P. 1-18.

88. Renevey, P. Detection of reliable features for speech recognition in noisy conditions using a statistical criterion / P. Renevey, A. Drygajlo // Proceedings of Workshop on CRAC. - 2001. - P. 71-74.

89. Reynolds, D.A. Speaker Verification Using Adapted Gaussian Mixture Models / D.A. Reynolds, T.F. Quatieri, R.B. Dunn // Digital Signal Processing. - 2000. -Vol. 10. - № 1-3. - P. 19-41.

90. Rosenberg, A.E. Speaker background models for connected digit password speaker verification / A.E. Rosenberg, S. Parthasarathy // 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. - IEEE, 1996. - Vol. 1. - P. 81-84.

91. Saeta, J.R. A VQ speaker identification system in car environment for personalized infotainment / J.R. Saeta, C. Koechling, J. Hernando // Odyssey: The Speaker and Language Recognition Workshop. - 2001. - P. 129-132.

92. Scalart, P. On speech enhancement algorithms based on MMSE estimation / P. Scalart, J.V. Filho, J.G. Chiquito // European Signal Processing Conference, 1996. EUSIPCO 1996. 8th. - IEEE, 1996. - P. 1-4.

93. Scalart, P. Speech enhancement based on a priori signal to noise estimation / P. Scalart, J.V. Filho // 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. - IEEE, 1996. - Vol. 2. - P. 629632.

94. Sohn, J. A voice activity detector employing soft decision based noise spectrum adaptation / J. Sohn, W. Sung // Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP '98 (Cat. No.98CH36181). - IEEE, 1998. - Vol. 1. - P. 365-368.

95. Sprechmann, P. Learnable low rank sparse models for speech denoising / P. Sprechmann, A. Bronstein, M. Bronstein, G. Sapiro // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. - IEEE, 2013. - P. 136140.

96. Srinivasan, S. Binary and ratio time-frequency masks for robust speech recognition / S. Srinivasan, N. Roman, D. Wang // Speech Communication. -2006. - Vol. 48. - № 11. - P. 1486-1501.

97. Varga, A. Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems / A. Varga, H.J.M. Steeneken // Speech Communication. -1993. - Vol. 12. - № 3. - P. 247-251.

98. Wang, D. On Ideal Binary Mask As the Computational Goal of Auditory Scene Analysis / D. Wang // Speech Separation by Humans and Machines. - Boston: Kluwer Academic Publishers, 2005. - P. 181-197.

99. Wang, D. Time-Frequency Masking for Speech Separation and Its Potential for Hearing Aid Design / D. Wang // Trends in Amplification. - 2008. - Vol. 12. -

№ 4. - P. 332-353.

100. Welch, P. The use of fast Fourier transform for the estimation of power spectra: A method based on time averaging over short, modified periodograms / P. Welch // IEEE Transactions on Audio and Electroacoustics. - 1967. - Vol. 15. -№ 2. - P. 70-73.

101. Yamada, T. In-vehicle speaker recognition using independent vector analysis / T. Yamada, A. Tawari, M.M. Trivedi // 2012 15th International IEEE Conference on Intelligent Transportation Systems. - IEEE, 2012. - P. 1753-1758.

102. Zhou, L. Application of denoising algorithm based on LPSO-WNN in speech recognition / L. Zhou, Y. Hu, S. Xiahou, W. Zhang, C. Zhang, Z. Li, D. Hao // 2013 International Conference on Communications, Circuits and Systems (ICCCAS). - IEEE, 2013. - P. 347-349.

ПРИЛОЖЕНИЕ 1. АКТЫ ВНЕДРЕНИЯ РЕЗУЛЬТАТОВ

РАБОТЫ

УТВЕРЖДАЮ

Ген. директор, ООО «Оскар» М.А. Дубов

Ш/и 7

!ЩА> 2015 г.

АКТ

о внедрении результатов диссерта

ицина

Геннадия Сергеевича, выполненной в Ярославском государственном университете им. П.Г. Демидова (ЯрГУ), на тему «Предобработка речевых сигналов в системах автоматической идентификации диктора»

Результаты диссертационной работы Тупицина Г.С. «Предобработка речевых сигналов в системах автоматической идентификации диктора» нашли применение в разработках ООО «Оскар». Особый практический интерес представляют следующие результаты диссертации: 1. новый подход к расчету мягкой маски;

коррекции спектра минимальной среднеквадратичной ошибки кратковременной амплитуды спектра для подавления аддитивного шума в речевых сигналах.

Разработанные Тупициным Г.С. алгоритмы применяются в системе голосового управления, создаваемой в компании, для повышения эффективности работы в условиях воздействия шумов.

двухступенчатый алгоритм на основе мягкой маски и функции

Инженер-конструктор

и

и

И.А. Калистратов

УТВЕРЖДАЮ ектогё) ООО «Эймс Софтвэр» А.А. Мелешников » (Ш)4М 2015 г.

АКТ

о внедрении результатов диссертационной работы Тупицина Геннадия Сергеевича, выполненной в Ярославском государственном университете им. П.Г. Демидова (ЯрГУ), на тему «Предобработка речевых сигналов в системах автоматической идентификации диктора»

Результаты диссертационной работы Тупицина Г.С. «Предобработка речевых сигналов в системах автоматической идентификации диктора» нашли применение в разработках ООО «Эймс Софтвэр». Особый практический интерес представляют следующие результаты диссертации:

1. методика быстрой оценки точности идентификации дикторов для настройки параметров алгоритмов шумоподавления в системах идентификации диктора;

2. научно-исследовательская программа «Speaker Recognition Test Framework - программа для исследования алгоритмов распознавания диктора».

Программист

А.А. Сан дул як

УТВЕРЖДАЮ

АКТ

внедрения результатов диссертационной работы Тупицина Геннадия Сергеевича на тему «Предобработка речевых сигналов в системах автоматической идентификации диктора» в научно-исследовательские работы

Результаты диссертационной работы Тупицина Г.С., представленной на соискание ученой степени кандидата технических наук по специальности 05.12.04 «Радиотехника, в том числе системы и устройства телевидения», были использованы в научно-исследовательских работах:

- при выполнении НИР «Совершенствование методов анализа и оценки качества сигналов в системах радиосвязи» (грант РФФИ № 14-07-31335) внедрена методика быстрой оценки точности идентификации дикторов;

- при выполнении НИР «Разработка нелинейных алгоритмов цифровой обработки речевых сигналов, изображений и видеопоследовательностей на основе модифицированных критериев оценки качества» (грант РФФИ № 15-08-99639) внедрен новый подход к расчету мягкой маски для шумоподавления в речевых сигналах.

Заведующий кафедрой динамики

электронных систем, профессор, д.т.н.

(

Ю.А. Брюханов

УТВЕРЖДАЮ

Нервый проректор Ярославского государственногй¥ниверситета имГП.Г. Демидова \

и': С.А. Кащенко

....../

2015 г.

АКТ

внедрения результатов диссертационной работы Тупицина Г.С. на тему

«Предобработка речевых сигналов в системах автоматической

идентификации диктора» в учебный процесс

Мы, нижеподписавшиеся, заведующий кафедрой динамики электронных систем, профессор, д.т.н. Брюханов Ю.А. и ассистент кафедры динамики электронных систем, к.т.н. Топников А.И. составили настоящий акт о том, что результаты диссертационной работы Тупицина Г.С. внедрены в учебный процесс на кафедре динамики электронных систем физического факультета ЯрГУ (направление подготовки «Радиотехника»):

- В курсе «Цифровая обработка речевых сигналов» - обобщенные мягкие маски и новый подход к расчету мягкой маски для подавления шума в речевых сигналах.

При выполнении студентами курсовых и дипломных проектов используется разработанная Тупициным Г.С. программа «Speaker Recognition Test Framework - программа для исследования алгоритмов распознавания диктора».

Заведующий кафедрой динамики электронных систем, профессор, д.т.н.

Ю.А. Брюханов

Ассистент кафедры динамики электронных систем, к.т.н.

А.И. Топников

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.