Система разделения дикторов на основе вероятностного линейного дискриминантного анализа тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Кудашев, Олег Юрьевич

  • Кудашев, Олег Юрьевич
  • кандидат науккандидат наук
  • 2014, Санкт-Петербург
  • Специальность ВАК РФ05.13.11
  • Количество страниц 158
Кудашев, Олег Юрьевич. Система разделения дикторов на основе вероятностного линейного дискриминантного анализа: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Санкт-Петербург. 2014. 158 с.

Оглавление диссертации кандидат наук Кудашев, Олег Юрьевич

Оглавление

Список сокращений и условных обозначений

Введение

1 Современные подходы к задаче разделения дикторов

1.1 Акустические признаки

1.1.1 Мел-частотные кепстральные коэффициенты

1.1.2 Коэффициенты линейного предсказания

1.1.3 Перцепционные коэффициенты линейного предсказания

1.1.4 Постобработка акустических признаков

1.2 Детектор речевой активности

1.3 Сегментация фонограммы

1.3.1 Баейсовский информационный критерий

1.3.2 Обобщенное отношение правдоподобия

1.3.3 Дивергенция Кульбака-Лейблера

1.4 Кластеризация речевых сегментов по дикторам

1.4.1 Построение голосовой модели диктора

1.4.2 Методы кластеризации дикторов

1.4.3 Метод кластеризации на основе VBA

1.5 Оценка эффективности систем разделения дикторов

1.6 Выводы

2 Система разделения дикторов на основе PLDA

2.1 Вероятностный линейный дискриминантныйанализ

2.2 Модель PLDA задачи разделения дикторов

2.2.1 Оценка параметров PLDA

2.2.2 Результаты численных экспериментов

2.3 Кластеризация речевых сегментов

2.3.1 Модельный отбор

2.3.2 Кластеризация при известном числе дикторов

2.3.3 Алгоритм кластеризации

2.4 Выводы

3 Построение системы разделения дикторов

3.1 Методика оценки эффективности систем

3.1.1 Акустические базы

3.1.2 Критерии оценки эффективности

3.2 Построение опорной системы разделения дикторов на фонограмме

3.2.1 Акустические признаки

3.2.2 Детектор речевой активности

3.2.3 Поиск точек смены дикторов на фонограмме

3.2.4 Кластеризация речевых сегментов по дикторам

3.2.5 Схема алгоритма опорной системы

3.2.6 Результаты численных экспериментов

3.3 Выбор акустических признаков

3.4 Модуль сегментации фонограммы

3.5 Модуль кластеризации

3.5.1 Кластеризация при известном числе дикторов

3.5.2 Модельный отбор

3.6 Выводы

4 Программные средства системы разделения дикторов

4.1 Структура системы разделения дикторов

4.2 Технические характеристики системы

4.2.1 Поддерживаемые архитектуры и операционные системы

4.2.2 Количество потребляемой памяти

4.2.3 Быстродействие системы

4.3 Сравнительный анализ с системой LIUM

4.3.1 Описание системы LIUM

4.3.2 Потребление памяти и быстродействие

4.3.3 Оценка эффективности

4.4 Дальнейшая работа

4.5 Выводы

Заключение

Литература

Список сокращений и условных обозначений

клп Коэффициенты Линейного Предсказания

MFCC Mel-Frequency Cepstral Coefficients

PLP Perceptual Linear Predictive

CMN Cepstral Mean Normalization

CVN Cepstral Variance Normalization

STVN Short Time Variance Normalization

ZCR Zero Crossing Rate

NMF Non-negative Matrix Factorization

В 1С Bayesian Information Criterion

GLR Generalized Likelihood Ratio

КЛ - дивергенция Дивергенция Кульбака-Лейблера

СГР Смесь гауссовых распределений

MAP Maximum A Posteriori

JFA Joint Factor Analysis

EV Eigen Voice

TV Total Variability

ивм Universal Background Model

смм Скрытые марковски модели

VBA Variational Bayesian Analysis

DER Diarization Error Rate

АСР Average Cluster Purity

ASP Average Speaker Purity

EER Equal Error Rate

РСА Principal Component Analysis

LDA Linear Discriminant Analysis

PLDA Probability Linear Discriminant Analysis

ОСШ Отношение Сигнал-Шум

EM Expectation-Maximization

RT Real Time

M(x\fi, £) Нормальное стандартное распределение со средним зна-

чением /л и ковариационной матрицей Е Математическое ожидание выражения • относительно случайной величины £

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Система разделения дикторов на основе вероятностного линейного дискриминантного анализа»

Введение

Задача разделения дикторов на фонограмме в англоязычной литературе носит название "speaker diarization task". В общем случае термин "diarization" из области обработки звука используется для обозначения ряда задач, связанных с разметкой фонограммы на временные участки, содержащие запись звуков одинакового типа. К таким типам могут быть отнесены: речь целевого диктора, фоновая речь, музыка, различные разновидности шумов и т.п.

Наиболее востребованной и сложной среди подобного рода задач является задача разделения дикторов на фонограмме, которая заключается в выделении на фонограмме речевых сегментов и их кластеризации в соответствии с принадлежностью одному диктору. Таким образом, задача разделения дикторов отвечает на вопрос «Кто когда говорил?».

Наибольшую практическую ценность представляют системы, позволяющие в автоматическом режиме решать поставленную задачу. В данной работе рассматриваются именно такие системы.

Актуальность исследования. Задача разделения дикторов является неотъемлемой частью многих систем автоматической обработки речи. К таким системам в первую очередь следует отнести:

1. Системы автоматического распознавания речи.

Системы автоматического распознавания речи имеют множество применений. В частности, эти системы используются для субтитрирования медиа-контента, для поиска ключевых слов, для автоматического определения тематики разговора или телепередачи [1]. Как показано во многих работах [2,3], использование информации о временных границах дикторов позволяет улучшить качество распознавания. Во-первых, имея такую информацию, появляется возможность производить независимую адаптацию параметров системы распознавания для каждого диктора в отдельности. Во-вторых, в

случае наличия смены дикторов на фонограмме происходит также и смена контекста, учитывая которую во время декодирования можно заранее отбросить ложные гипотезы. Последнее замечание особенно актуально при решении задачи распознавания спонтанной речи во время активного диалога.

2. Системы автоматического распознавания дикторов по голосу.

Эти системы нашли свое применение при решении многочисленных задач, связанных с поиском целевого диктора в большом объеме звуковых данных. Этот поиск производится путем построения голосовой модели дикторов, присутствующих на аудио-записях, и их дальнейшего сравнения с моделью целевого диктора. Результатом такого сравнения является оценка схожести, анализируя которую можно сделать вывод о присутствии голоса искомого диктора на анализируемой выборке звуковых данных. Для построения голосовой модели диктора в первую очередь необходимо выделить принадлежащие этому диктору речевые сегменты. Во многих случаях, при решении практических задач, помимо искомых речевых сегментов на рассматриваемой фонограмме могут присутствовать также и речевые сегменты других дикторов. Таким образом, в качестве предварительного этапа необходимо решить задачу разделения дикторов на данной фонограмме. Как и для систем распознавания речи, существует ряд работ, показывающих прямую зависимость эффективности системы распознавания личности по голосу от эффективности системы разделения дикторов [4].

3. Системы индексации, обработки и хранения аудио-данных.

В условиях постоянного роста аудио- и видео- контента остро стоит вопрос не только со способами его хранения и обработки, но также и с поиском интересующей информации. Для решения последнего вопроса необходимо, в первую очередь, произвести разметку непрерывного потока данных на логические структуры и компоненты и, в частности, осуществить разделение дикторов.

В последнее время наблюдается значительный рост интереса к задаче разделения дикторов. Подобный рост вызван, в первую очередь, быстрым развитием технологий обработки речи, а также увеличением объема звуковых данных. В

немалой степени интерес научного сообщества в этой области поддерживается национальным институтом стандартов и технологий США (National Institute of Standards and Technology, NIST), разработавшим методику оценки качества систем автоматической обработки речи (Rich Transcription Evaluation Project, RTE) [5]. Одной из подзадач RTE является задача разделения дикторов ("Metadata Extraction Speaker Diarization Task").

Актуальность темы исследования подтверждается большим количеством публикаций в международных журналах, таких как "Signal Processing Letters", "Speech and Audio Processing", "Acoustics, Speech and Signal Processing", а также многочисленными выступлениями на международных конференциях, таких как SPECOM, Interspeech, ICASSP, Odyssey.

Степень разработанности. В первую очередь необходимо отметить ряд основополагающих работ, посвященных как задачам обработки речевого сигнала в общем, так и задаче разделения дикторов в частности. Это работы таких авторов, как Douglas A. Reynolds [6-8], Patrick J. Kenny [9,10], Hynek Hermansky [11,12]. В этих работах широко применяются методы обработки речевого сигнала, разработанные такими авторами как Lawrence R. Rabiner, Ronald W. Schafer, Alan V. Oppenheim, методы машинного обучения на основе теории вероятностей и математической статистики, разработанные и описанные в работах Christopher M. Bishop, Roger R. Berger, David J.C. MacKay.

Задачи разделения дикторов на фонограмме и методы их решения можно классифицировать в соответствии с областью и условиями их применения:

1. Аудиозаписи новостных радио- и телевещаний.

Особенностью таких аудиозаписей является относительно редкая смена дикторов (как правило, не чаще одно раза в 3 секунды), а также отсутствие информации о количестве говорящих. В таких условиях нашли свое широкое распространение методы, основанные на применении байесовского информационного критерия для определения точек смены дикторов и кластеризации речевых сегментов [13,14], а также применении смесей гауссовских распределений (СГР) и скрытых марковских моделей (СММ) для создания голосовых моделей дикторов [15]. Достоинством таких методов является их высокое быстродействие и наличие возможности работать в режиме реального времени.

2. Фонограммы телефонных переговоров, семинаров, совещаний, записанных в моно-канале.

Особенность этих условий обуславливается частой сменой дикторов на фонограмме, а также наличие перекрывающихся речевых сегментов нескольких дикторов. Кроме этого, для таких фонограмм зачастую отсутствует априорная информация о числе дикторов. Примером могут служить аудиозаписи телефонных переговоров, в которых могут встречаться записи автоответчика или факт передачи трубки.

Среди многих работ, посвященных данной тематике, в первую очередь необходимо отметить работы Patrick J. Kenny, N. Dehak. Предлагаемые ими системы разделения дикторов на фонограмме основаны на методах объединенного факторного анализа (Joint Factor Analysis, JFA) в пространствах «собственных голосов» (Eigen Voice, EV) и «полной изменчивости» (Total Variability, TV), на методах вариационного байесовского анализа (Variational Bayesian Analysis, VBA).

Также следует отметить целый ряд работ, посвященных проблеме перекрывающихся речевых сегментов [16-18], в которых предлагаются методы их детектирования и устранения.

3. Фонограммы семинаров, совещаний, записанных при помощи мульти-ка-нальных систем.

Мульти-канальные системы обеспечивают синхронную запись звука с большого набора микрофонов, обеспечивая тем самым возможность на начальном уровне обработки звука определять его источник. Существует целое направление, связанное с решением задачи разделения дикторов в таких условиях [19,20].

Наиболее сложным из представленных выше условий является второй случай. Методы, разработанные Patrick J. Kenny показывают наилучшие на текущий момент результаты для данных условий. Такие результаты достигаются за счет широкого использования априорной информации при моделировании распределения акустических признаков речевых сегментов дикторов. Однако основным недостатком этих методов является обязательное наличие информации о количестве дикторов. Это условие ограничивает применение указанных методов в ряде практических задач, где эта информация отсутствует.

Учитывая все вышесказанное, а также принимая во внимание рост качества автоматических систем обработки речи, влекущий за собой повышение требований к качеству разделения дикторов, можно сделать вывод о необходимости дальнейшего развития указанным методов.

Таким образом, целью исследования является исследование и разработка методов разделения дикторов, которые с высокой эффективностью осуществляют решение поставленной задачи при условии отсутствия априорной информации о числе дикторов.

Для достижения поставленной цели были сформулированы и решены следующие основные задачи:

1. Исследование современных достижений в области разделения дикторов, а также в смежных областях, таких как тексто-зависимая и тексто-независимая идентификация дикторов по голосу, распознавание речи.

2. Разработка и реализация методов разделения дикторов на фонограмме, позволяющих работать в условиях отсутствия априорной информации о числе дикторов.

3. Подготовка акустических баз для оценки параметров (обучения) и тестирования системы разделения дикторов.

4. Реализация программных средств системы разделения дикторов, осуществляющих решение поставленной задачи.

5. Проведение численных экспериментов, осуществляющих оценку качества разработанной системы, а также её сравнение с мировыми аналогами.

Объект исследования. Системы разделения дикторов на фонограмме.

Предмет исследования. Методы, обеспечивающие решение задачи разделения дикторов при условии отсутствия априорной информации о числе дикторов.

Методы исследования. Методы цифровой обработки речевого сигнала, теории вероятности и математической статистики, машинного обучения, тексто-независимой идентификации дикторов по голосу, методы проектирования и разработки программного обеспечения ЭВМ.

Научная новизна.

1. Разработана модель вероятностного линейного дискриминантного анализа (Probability Linear Discriminant Analysis, PLDA), применимой к задаче разделения дикторов.

2. Разработан метод кластеризации речевых сегментов при известном числе дикторов на основе вариационного байесовского анализа и методов спектральной кластеризации в рамках разработанной модели PLDA.

3. Разработан метод модельного отбора числа дикторов на фонограмме на основе PLDA.

4. Разработана система разделения дикторов на фонограмме, осуществляющая эффективное решение поставленной задачи в условиях отсутствия информации о числе дикторов.

5. Реализованы программные средства, включающие в себя набор модулей, осуществляющих оценку параметров и тестирование разработанной системы.

Обоснованность научных достижений и результатов обеспечивается согласованностью между разработанными методами и результатами экспериментальных исследований, апробацией основных положений в ряде ведущих международных конференций, анализе состояния исследований в рассматриваемой области, а также успешным практическим применением разработанных программных средств.

Основные положения, выносимые на защиту:

1. Модель вероятностного линейного дискриминантного анализа, применимой к задаче разделения дикторов.

2. Метод кластеризации речевых сегментов при известном числе дикторов на основе вариационного байесовского анализа и методов спектральной кластеризации в рамках разработанной модели PLDA.

3. Метод модельного отбора числа дикторов на фонограмме на основе PLDA.

4. Система разделения дикторов на фонограмме, осуществляющая эффективное решение поставленной задачи в условиях отсутствия информации о числе дикторов.

5. Программные средства, включающие в себя набор модулей, осуществляющих оценку параметров и тестирование разработанной системы.

Практическая значимость. Система, разработанная в рамках диссертационной работы, дает возможность осуществлять разделение дикторов на фонограмме при условии отсутствия информации о числе дикторов. При этом качество разделения сопоставимо и в некоторых случаях превышает качество аналогичной системы, работающей в условиях присутствия информации о числе дикторов. Применение разработанной системы в качестве этапа предварительной обработки речевого сигнала позволяет достичь 40 % относительного уменьшения величины равновероятной ошибки системы тексто-независимого распознавания дикторов по голосу, осуществляющей поиск целевого диктора на фонограмме.

Внедрение результатов работы. Результаты, полученные в рамках данной работы, нашли свое практическое применение в качестве программного модуля разделения дикторов, внедренного в состав ряда продуктов общества с ограниченной ответственностью «Центр Речевых Технологий»: АПК «Трал», ПО «VoiceGrid», голосовой поиск «VoiceGrid». Отдельные результаты диссертационной работы были внедрены в учебный процесс кафедры речевых информационных систем НИУ ИТМО в рамках дисциплины «Распознавание дикторов». Результаты внедрения подтверждены соответствующими актами.

Апробация результатов работы. Результаты исследования представлялись и обсуждались на следующих научно-методических конференциях: I и II Всероссийский конгресс молодых ученых (Санкт-Петербург, 2012-2013), XLI научная и учебно-методическая конференция НИУ ИТМО (Санкт-Петербург, 2012), 15th International Conference on Speech and Computer (Пльзень, Чехия, 2013), Acoustics, Speech and Signal Processing (ICASSP) (Флоренция, Италия, 2014). За научные результаты, полученные в ходе исследования, соискателем был получен диплом победителя конкурса грантов правительства Санкт-Петербурга для аспирантов в 2013 году.

Публикации. По теме диссертации опубликовано 8 печатных работ, 6 из которых в изданиях из перечня рецензируемых научных журналов ВАК, 3 из которых в международных журналах, индексируемых в базе данных Scopus.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы (112 наименований). Материал изложен на 158 страницах и включает 27 таблиц и 15 рисунков.

Глава 1

Современные подходы к задаче разделения дикторов

На данный момент существует большое количество различных систем, решающих задачу разделения дикторов на фонограмме. В той или иной степени все такие системы включают в себя следующие основные этапы [8,21-24]:

1. Построение акустических признаков на фонограмме.

Целью этого этапа является выделение из акустического сигнала наиболее значимой информации, отвечающей за индивидуальные особенности голоса диктора. Среди многих требований, предъявляемых к такой информации, в первую очередь следует отметить устойчивость к различных акустическим искажениям и помехам, а также относительную быстроту вычисления. В разделе 1.1 представлено подробное описание основных акустических признаков, используемых как для задачи разделения дикторов на фонограмме, так и для других задач автоматической обработки речи.

2. Выделение речевых сегментов на фонограмме.

На этом этапе производится выделение тех сегментов фонограммы, которые содержат запись голоса диктора. Очевидно, этот этап необходим для исключения излишней информации и ускорения работы алгоритмов. В разделе 1.2 приведены наиболее распространенные и эффективные методы детектирования речевых сегментов на фонограмме, существующих на данный момент.

3. Сегментация речевых сегментов фонограммы.

Под сегментацией речевых сегментов фонограммы понимается нахождение точек смены дикторов на этой фонограмме. Таким образом, результатов этого этапа является первоначальное выделение таких сегментов, которые содержат речь только одного диктора. В разделе 1.3 приведены методы поиска точек смены дикторов и основные применяемые для этого критерии.

4. Кластеризация речевых сегментов по дикторам.

В результате выполнения этапа сегментации, на выходе формируется наборе непересекающихся сегментов фонограммы, каждый из которых содержит речь только одного диктора. На этапе кластеризации необходимо произвести объединение всех сегментов, содержащих речь одного и того же диктора, в один набор речевых сегментов - кластер. В разделе 1.4 приведены основные современные подходы к решению задачи кластеризации речевых сегментов по дикторам.

1.1 Акустические признаки

Сложно переоценить роль акустических признаков в системах автоматической обработки речи. Удачный выбор акустических признаков, с одной стороны, позволяет справиться со многими трудностями, такими как наличие различных типов шумов, акустических искажений и т.п. С другой стороны, он позволяет выделить наиболее значимую информацию из акустического сигнала, значительно снижая объем входных данных и, тем самым, увеличивая быстродействие системы.

Для решения различных задач области обработки речевого сигнала применяются различные акустические признаки. В данном разделе предлагается остановиться на основных и наиболее распространенных среди таких задач акустических признаках. Здесь будет дано их краткое описание, приведены результаты воздействия на них различного рода акустических помех и искажений, а также представлены различные методы нормализации и постобработки акустических признаков.

1.1.1 Мел-частотные кепстральные коэффициенты

Мел-частотные кепстральные коэффициенты (Mel-frequency cepstral coefficients, MFCC) хорошо зарекомендовали себя как в задачах распознавания речи [25,26], так и в задачах распознавания дикторов [6,27,28]. Эти две задачи являются в какой-то степени противоположными друг другу, т.к. в задаче распознавания речи необходимо максимально уменьшить дикторскую вариативность, а в задаче распознавания дикторов, наоборот, следует эту вариативность максимально сохранить, уменьшив в свою очередь лингвистическую. Успешное применение в обоих задачах одних и тех же акустических признаков указывает, с одной стороны, на то, что эти акустические признаки содержат в себе достаточно широкий спектр как дикторской, так и лингвистической информации. С другой стороны, это также означает, что указанные две задачи тесно связаны друг с другом и достаточно сложно отделить один тип вариативности от другого.

Построение признаков MFCC начинается с процедуры разбиения входного сигнала на временные окна небольшой длины (20-30 мс), называемые кадрами, с фиксированным шагом смещения (10-15 мс). Далее, для каждого полученного кадра применяются следующие преобразования [29]:

1. Предварительная фильтрация.

Цель данного шага заключается в уменьшении негативных эффектов, возникающих во время обработки звукового сигнала. Как правило, применяется фильтр с конечной импульсной характеристикой (КИХ-фильтр) следующего вида:

где хг - входной звуковой сигнал; ^ - звуковой сигнал после фильтрации; Ъ - коэффициент фильтрации. Как правило, Ъ выбирается равным 0,95.

2. Дискретное преобразование Фурье (ДПФ):

yt = xt-b■ xt-i

(1.1)

Т-1

(1.2)

где Т - количество отсчетов в кадре; vJt - весовая оконная функция. Весовая оконная функция применяется с целью уменьшения краевых эффектов,

возникающих в результате разбиения сигнала на кадры. Наиболее распространенными оконными функциями являются:

(а) Окно Хэмминга:

w.

hamm t

= 0.54- 0.46 COS

' 2тгt ' Т - 1

к = 0, ...,Т- 1

(1.3)

(Ь) Окно Хана:

w

harm t

= 0.5 1 - COS

' 2nt T - 1

/с = 0,..., T — 1

(1.4)

3. Подсчет логарифма энергии спектра для набора треугольных Мел-частотных фильтров:

/Т/2 \к=0

s = 0,..., М — 1 ,

(1.5)

где М - количество треугольных фильтров; - 5-й треугольный фильтр в Мел-частотном диапазоне, определяемый по формуле:

H?d(f) =

о

Mf)-msbegin

mcenter~mbegin

mSend-m(f) mend ~ m center

0

mU) < msbegin

mbegin < mU) < Щ ^center < mU) < Щ

m{f) > msend

s

center s

end

(1.6)

где т1 т8сеп1.ег, тггепй - начало, середина и конец треугольного окна я-го Мел-частотного фильтра; т(/) - значение частоты в масштабе Мел-шкалы.

500 1000 1500 2000 2500 3000 3500 4000 Частота /, Гц

Рисунок 1.1- Пример построения 20 Мел-частотных треугольных фильтров

для частотного диапазона 300-3400 Гц

Эти значения могут быть вычислены по формулам:

л = 4

m(f) = 1127.01048 In [1 +

/

т

begin ~ m{flow) s

700 J

m(fhigh) - m(fiow)

777/

end.

= rn{fiow) + {s + 2)

M+ 1

m(fhigh) - m(fiow) M + l

1

777

center 2 begin ^end)

(1.7)

(1.8)

(1.9)

где / - частота дискретизации входного звукового сигнала; fhigh, flow ~ анализируемый частотный диапазон.

На рисунке 1.1 представлен пример построения 20 Мел-частотных треугольных фильтров для частотного диапазона 300-3400 Гц в соответствии с формулами (1.6).

Здесь можно отметить, что используя вместо Мел-шкалы (1.8) линейное преобразование, результатом вычислений будут являться так называемые

линейно-частотные кепстральные коэффициенты (Linear-Frequency Cepstral Coefficients, LFCC).

4. Дискретное косинусное преобразование для вычисленных значений энергий фильтров Es:

м-1

Q = Es cos

s=0

В качестве итоговых значений берутся первые несколько коэффициентов дискретного косинусного преобразования (1.10).

1.1.2 Коэффициенты линейного предсказания

Коэффициенты линейного предсказания (Linear predictive Coefficients, LPC) наряду с MFCC также широко применяются в различных задачах обработки речи: кодирование речевого сигнала [30], распознавание речи, распознавание диктора по голосу [31], идентификация языка [32].

Процедура линейного предсказания порядка Р заключается в аппроксимации текущего значения акустического сигнала, используя Р предыдущих значений, по формуле:

р

= (1.11)

Р=1

Коэффициенты ар в формуле (1.11) называются коэффициентами линейного предсказания. Разница между текущим значением сигнала и его предсказанием называется ошибкой предсказания:

р

et = xt-i - xt-i = xt-i - apXt-p (1-12)

p=i

При этом общая ошибка предсказания на всем сигнале имеет вид:

t t \

Задача процедуры линейного предсказания заключается в поиске таких ко-

Е

v= 1

OipXt-

(1.13)

эффициентов ар, которые доставляют минимум величине Е.

Для решения задачи линейного предсказания найдем частные производные уравнения (1.13) по искомым величинам и приравняем их к нулю:

дЕ

— = 0 р = 1,...,Р (1.14)

оар

В результате несложных преобразований задача нахождения коэффициентов

ар сведется к решению системы линейных уравнений порядка Р [26]:

р

J~2^рфгр = -фг0 2 = 1,...,Р (1-15)

р= 1

Ф%] — ^ ^ j t

Полученные уравнения (1.15) называются нормальными уравнениями линейного предсказания.

На практике приходится иметь дело с ограниченным сигналом длиной Т. Для этого случая существуют два наиболее распространенных метода решения уравнений (1.15):

1. Ковариационный метод.

Применение этого метода основывается на предположении, что вне интервала [0;Т) сигнал повторяется с периодом Т [33]. Тогда уравнения (1.15) примут вид:

р

= ~ФТ г=1,...,Р (1.16)

Р= 1

т

Ф7 = Ф7 = £

Полученная матрица является симметричной матрицей, соответ-

ственно, для решения полученных уравнений могут быть применены такие методы, как разложения Холецкого или метод квадратного корня.

Однако, этот метод является достаточно трудоемким с вычислительной точки зрения. В качестве альтернативного метода чаще всего на практике ис-

пользуется автокорреляционный метод [34] [35].

2. Автокорреляционный метод

Автокорреляционный метод линейного предсказания минимизирует ошибку сигнала на всем временном промежутке от — оо до +оо. При работе на ограниченном окне сигнала длиной Т на данном окне применяются весовая функции (см. (1.3), (1.4)), при этом остальные отсчеты сигнала принимаются равными 0. В таком случае, ошибка предсказания будет равняться:

Т+Р-1 Т+Р-1 / Р \ 2

Eauto= £ et2= £ lxt-J2<*pXt-p) (1-17)

t=0 i=0 \ p=1 /

и искомые уравнения примут вид:

р

= -фТ г = 1 (1Л8)

p=i

Т+Р-1 фаиЬо = £

i=0 т- 1 + (г-з)

= Е a;i^t+(t_j) i=0

Элементы матрицы во-первых, представляют собой автокорре-

ляционные коэффициенты, благодаря чему было дано название этому методу. Во-вторых, указанная матрица является диагонально-постоянной и искомое решение системы линейных уравнений может быть получено при помощи метода Левинсона-Дарбина [33].

Для построения акустических признаков LPC, как и для построения MFCC, сначала производится разбивка акустического сигнала на кадры длительностью 10-30 мс, для каждого из которых выполняются следующие преобразования:

1. Предварительная фильтрация по формуле (1.1).

2. Наложение окна весовой функции (1.3), (1.4).

3. Нахождение коэффициентов линейного предсказания автокорреляционным методом путем решения системы линейных уравнений (1.18).

1.1.3 Перцепционные коэффициенты линейного предсказания

Перцепционные коэффициенты линейного предсказания (Perceptual Linear Predictive, PLP) были представлены Hermansky Н. в работе [11]. Эти акустические признаки были специально разработаны для задач распознавания речи и по результатам многочисленных экспериментов демонстрируют высокие результаты распознавания [36,37].

Цель построения PLP заключается в более точном приближении описания звукового сигнала к параметрам человеческого восприятия. Как и LPC, перцепционные коэффициенты линейного предсказания анализируют сигнал на небольшом отрезке времени - кадре. Однако, в отличие от LPC, PLP оперируют набором трансформаций, основанных на физиологии восприятия звука [38].

При построении акустических признаков на основе PLP сначала ко входному сигналу применяются те же преобразования, что и при построении MFCC: сигнал разбивается на кадры, далее к каждому кадру применяется КИХ-фильтр (1.1) и подсчитывается спектр сигнала (1.2). В качестве оконной функции может быть применено как окно Хэмминга (1.3), так и окно Ханна (1.4).

Далее, обработанный таким образом сигнал подвергается следующей цепочке преобразований:

1. Подсчет энергии спектра для набора частотных фильтров в масштабе Барк-шкалы:

Т/2

EBark = \Fk\H*ark(fk) s = 0,..., М - 1 , (1.19)

А;=0

где М - количество фильтров; Hfark - s-й частотный фильтр в масштабе Барк-шкалы, определяемый по формуле:

Hfark{f) = <

0 B(f) - Bscenter < -1.3

102.5(B(/)-^erlter+0.5) _L3 < _ Bsenter < _0.5

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Кудашев, Олег Юрьевич, 2014 год

Литература

1. Rabiner L. Applications of speech recognition in the area of telecommunications // Automatic Speech Recognition and Understanding, 1997. Proceedings., 1997 IEEE Workshop on. - 1997.-Dec. — P. 501-510.

2. Jin Hubert, Kubala Francis, Schwartz Rich. Automatic Speaker Clustering // DARPA Speech Recognition Workshop. — 1997. — P. 108-111.

3. Automatic Segmentation, Classification and Clustering of Broadcast News Audio / Matthew A. Siegler, Uday Jain, Bhiksha Raj, Richard M. Stern // Proc. DARPA Speech Recognition Workshop. — 1997, — P. 97-99.

4. Kenny P., Reynolds D., Castaldo F. Diarization of Telephone Conversations Using Factor Analysis // Selected Topics in Signal Processing, IEEE Journal of. — 2010. —Dec. - Vol. 4, no. 6,- P. 1059-1070.

5. NIST Rich Transcription Evaluation Project.— 2014.— URL: http://www.itl.nist.gov/iad/mig/tests/rt/.

6. Reynolds D.A. Experimental evaluation of features for robust speaker identification // Speech and Audio Processing, IEEE Transactions on.— 1994. — Oct.— Vol. 2, no. 4.—P. 639-643.

7. Reynolds Douglas A., Quatieri Thomas F., Dunn Robert B. Speaker verification using Adapted Gaussian mixture models // Digital Signal Processing. — 2000. — P. 2000.

8. Tranter S.E., Reynolds D.A. An overview of automatic speaker diarization systems // Audio, Speech, and Language Processing, IEEE Transactions on. — 2006,—Vol. 14, no. 5,—P. 1557-1565.

9. Front End Factor Analysis for Speaker Verification / Najim Dehak, Patrick J. Kenny, Reda Dehak et al. // IEEE Transactions on Audio, Speech and Language Processing. — 2010.

10. Joint factor analysis of speaker and session variability: Theory and algorithms : Rep. / CRIM ; Executor: Patrick Kenny : 2005.

11. Hermansky Hynek. Perceptual linear predictive (PLP) analysis of speech // the Journal of the Acoustical Society of America. — 1990.— Vol. 87, no. 4,— P. 1738-1752.

12. Hermansky Hynek, Morgan Nelson. RASTA processing of speech // Speech and Audio Processing, IEEE Transactions on.— 1994,— Vol. 2, no. 4.— P. 578589.

13. Schwarz G. Estimating the dimension of a model // Annals of Statistics.— 1978. — Vol. 6. — P. 461-464.

14. Chen S., Gopalakrishnan P. Speaker, environment and channel change detection and clustering via the Bayesian Information Criterion // Proc. DARPA Broadcast News Transcription and Understanding Workshop. — 1998.

15. Ajmera J., Lapidot H. Bourlard I., Mccowan I. Improved unknown-multiple speaker clustering using HMM," IDIAP Reseach Report RR-02-23. — 2002.

16. Zelenak Martin, Segura Carlos, Hernando Javier. Overlap detection for speaker diarization by fusing spectral and spatial features. // INTERSPEECH / Ed. by Takao Kobayashi, Keikichi Hirose, Satoshi Nakamura. — ISCA, 2010.— P. 2302-2305.

17. Boakye Kofi, Vinyals Oriol, Friedland Gerald. Improved Overlapped Speech Handling for Speaker Diarization. // INTERSPEECH. — ISCA, 2011,— P. 941944.

18. Overlapped speech detection for improved speaker diarization in multiparty meetings / K. Boakye, B. Trueba-Hornero, O. Vinyals, G. Friedland // Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on. — 2008. — March. — P. 4353^1356.

19. Pardo J.M., Anguera X., Wooters Chuck. Speaker Diarization For Multiple-Distant-Microphone Meetings Using Several Sources of Information // Computers, IEEE Transactions on. — 2007. — Sept. — Vol. 56, no. 9. — P. 12121224.

20. Anguera Xavier, Pardo Josem. Robust speaker diarization for meetings: ICSI RT06s evaluation system // in Proc. ICSLP. — Springer Verlag, 2006.

21. Speaker Diarization: A Review of Recent Research / X. Anguera Miro, S. Bozonnet, N. Evans et al. // Audio, Speech, and Language Processing, IEEE Transactions on.— 2012.— Feb. - Vol. 20, no. 2. - P. 356-370.

22. Moattar M. H., Homayounpour M. M. A Review on Speaker Diarization Systems and Approaches // Speech Commun. — 2012. — Dec. — Vol. 54, no. 10. — P. 1065-1103.

23. The ICSI RT-09 Speaker Diarization System / G. Friedland, A. Janin, D. Imseng et al. // Audio, Speech, and Language Processing, IEEE Transactions on. — 2012, —Feb. —Vol. 20, no. 2.-P. 371-381.

24. Fredouille Corinne, Evans Nicholas. The LIA RT'07 Speaker Diarization System // Multimodal Technologies for Perception of Humans / Ed. by Rainer Stiefelhagen, Rachel Bowers, Jonathan Fiscus. — Springer Berlin Heidelberg, 2008. — Vol. 4625 of Lecture Notes in Computer Science. — P. 520-532.

25. Beigi H. Fundamentals of Speaker Recognition. SpringerLink : Biicher.— Springer, 2011,—ISBN: 9780387775920.

26. Huang X., Acero A., Hon H.W. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. — Prentice Hall PTR, 2001.— ISBN: 9780130226167.

27. Sahidullah Md., Saha Goutam. Design, analysis and experimental evaluation of block based transformation in {MFCC} computation for speaker recognition // Speech Communication. — 2012. — Vol. 54, no. 4. — P. 543 - 565.

28. Система идентификации дикторов по голосу для конкурса NIST SRE 2012 / А. В. Козлов, О. Ю. Кудашев, Ю. Н. Матвеев и др. // Труды СПИИРАН. -2013.-№ 2.-С. 350-370.

29. Davis S., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences // Acoustics, Speech and Signal Processing, IEEE Transactions on.— 1980. — Aug. - Vol. 28, no. 4. - P. 357-366.

30. Speech Compression Using Linear Predictive Coding / R. M. Amor, S. Zalak, S. Raina, T. Sanket // Machine Intelligence Research Labs. — 2009.— P. 119— 122.

31. Lipeika Antanas, Lipeikiene Joana. Speaker Recognition Based on the Use of Vocal Tract and Residue Signal LPC Parameters. // Informática, Lith. Acad. Sci.- 1999.- Vol. 10, no. 4, — P. 377-388.

32. Wong E., Sridharan S. Comparison of linear prediction cepstrum coefficients and mel-frequency cepstrum coefficients for language identification // Intelligent Multimedia, Video and Speech Processing, 2001. Proceedings of 2001 International Symposium on. — 2001.— P. 95-98.

33. O'Shaughnessy D. Linear predictive coding // Potentials, IEEE. — 1988. — Feb. — Vol. 7, no. 1.- P. 29-32.

34. Markel John E., Gray A. H. Linear Prediction of Speech. — Secaucus, NJ, USA : Springer-Verlag New York, Inc., 1982, — ISBN: 0387075631.

35. O'Cinneide A., Dorran D., Gainza M. Linear Prediction: The Problem, its Solution and Application to Speech // DIT Internal Technical Report. — 2008. — Aug. — P. 19.

36. Comparison of feature extraction methods for speech recognition in noise-free and in traffic noise environment / G. Sarosi, M. Mozsary, P. Mihajlik, T. Fe-gyo // Speech Technology and Human-Computer Dialogue (SpeD), 2011 6th Conference on. — 2011. — May. — P. 1-8.

37. Schurer Т. Comparing Different Feature Extraction Methods For Telephone Speech Recognition Based On Hmm'S // SST Proceedings. — 1994. — P. 234237.

38. Shrawankar Urmila, Thakare Vilas M. Techniques for Feature Extraction In Speech Recognition System : A Comparative Study // CoRR. — 2013.— Vol. abs/1305.1145.

39. Westphal Martin. The Use Of Cepstral Means In Conversational Speech Recognition // In Proceedings of the European Conference on Speech Communication and Technology (Eurospeech. — 1997, — P. 1143-1146.

40. Pelecanos Jason, Sridharan Sridha. Feature Warping for Robust Speaker Verification // 2001: A Speaker Odyssey - The Speaker Recognition Workshop. — Crete, Greece : International Speech Communication Association (ISCA), 2001.— P. 213-218. —URL: http://eprints.qut.edu.au/10408/.

41. Short-Time Gaussianization for Robust Speaker Verification / Bing Xiang, Up-endra V. Chaudhari, Jiri Navratil et al. // in Proc. ICASSP.— 2002,— P. 681684.

42. Ткаченко M. С., Лукин А. С. Многомасштабный метод спектрального вычитания для подавления шумов в аудиосигналах // Труды 12-й международной конференции и выставки «Цифровая обработка сигналов и её применение» (DSPA'2010). - Т. 1. - Москва, 2010. - С. 223-226.

43. Furui S. Comparison of speaker recognition methods using static features and dynamic features // Acoustics, Speech, and Signal Processing, IEEE Transactions on. — 1981,- Vol. 29, no. 3,- P. 342-350.

44. Allen F., Ambikairajah E., Epps J. Language Identification using Warping and the Shifted Delta Cepstrum H Multimedia Signal Processing, 2005 IEEE 7th Workshop on. — 2005. — Oct. — P. 1-4.

45. Kinnunen Tomi, Chernenko Evgenia, Tuononen Marko et al. Voice Activity Detection Using MFCC Features and Support Vector Machine. — 2007.

46. Robust voice activity detection algorithm for estimating noise spectrum / Kyoung-Ho Woo, Tae-Young Yang, Kun-Jung Park, Chungyong Lee // Electronics Letters. — 2000, —Jan. — Vol. 36, no. 2. — P. 180-181.

47. Marzinzik M., Kollmeier B. Speech pause detection for noise spectrum estimation by tracking power envelope dynamics // Speech and Audio Processing, IEEE Transactions on. — 2002. — Feb. — Vol. 10, no. 2.- P. 109-118.

48. Tucker R. Voice activity detection using a periodicity measure // Communications, Speech and Vision, IEE Proceedings I.— 1992. —Aug. — Vol. 139, no. 4.-P. 377-380.

49. Voiced/Unvoiced Decision for Speech Signals Based on Zero-Crossing Rate and Energy / R.G. Bachu, S. Kopparthi, B. Adapa, B.D. Barkana // Advanced Techniques in Computing Sciences and Software Engineering / Ed. by Khaled Ellei-thy. — Springer Netherlands, 2010. — P. 279-282.

50. Nemer E., Goubran R., Mahmoud S. Robust voice activity detection using higher-order statistics in the LPC residual domain // Speech and Audio Processing, IEEE Transactions on. — 2001. — Mar. — Vol. 9, no. 3.-P. 217-231.

51. Efficient voice activity detection algorithms using long-term speech information / Javier Ramirez, Jose C Segura, Carmen Beniitez et al. // Speech Communication. — 2004. — Vol. 42, no. 3-4. — P. 271 - 287.

52. Sohn Jongseo, Sung Wonyong. A voice activity detector employing soft decision based noise spectrum adaptation // Acoustics, Speech and Signal Processing, 1998. Proceedings of the 1998 IEEE International Conference on.— Vol. 1.— 1998, —May.-P. 365-368 vol.1.

53. Gerven Stefaan Van, Xie Fei. A comparative study of speech detection methods. // EUROSPEECH / Ed. by George Kokkinakis, Nikos Fakotakis, Evange-los Dermatas. — ISCA, 1997.

54. Sohn Jongseo, Kim Nam Soo, Sung Wonyong. A statistical model-based voice activity detection // Signal Processing Letters, IEEE. — 1999.— Jan. — Vol. 6, no. 1.- P. 1-3.

55. Martin R. Speech enhancement using MMSE short time spectral estimation with gamma distributed speech priors // Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on. — Vol. 1. — 2002. — May. — P. I-253-I-256.

56. Chang Joon-Hyuk, Kim Nam Soo. Voice activity detection based on complex Laplacian model // Electronics Letters.— 2003. — April. — Vol. 39, no. 7.— P. 632-634.

57. Applying support vector machines to voice activity detection / Dong Enqing, Liu Guizhong, Zhou Yatong, Zhang Xiaodi // Signal Processing, 2002 6th International Conference on. — Vol. 2. — 2002. — Aug. — P. 1124-1127 vol.2.

58. Hughes Thad, Mierle Keir. Recurrent Neural Networks for Voice Activity Detection // ICASSP. — 2013. - P. 7378-7382.

59. Genetic programming-based voice activity detection / P.A. Estevez, N. Becerra-Yoma, N. Boric, J.A. Ramirez // Electronics Letters. — 2005. — Sept. — Vol. 41, no. 20.-P. 1141-1143.

60. Usukura T., Mitsuhashi W. Voice activity detection using AdaBoost with multiframe information // Signal Processing and Communication Systems, 2008. ICSPCS 2008. 2nd International Conference on. — 2008. — Dec. — P. 1-8.

61. Germain Francois, Sun Dennis L., Mysore Gautham J. Speaker and noise independent voice activity detection. // INTERSPEECH. — ISCA, 2013.— P. 732736.

62. Bao Xulei, Zhu Jie. A novel voice activity detection based on phoneme recognition using statistical model // EURASIP Journal on Audio, Speech, and Music Processing.— 2012.— Vol. 2012, no. 1,- P. 1-10.

63. Speaker segmentation and clustering in meetings / Qin Jin, Kornel Laskowski, Tanja Schultz, Alex Waibel // In Proceedings of the 8th International Conference on Spoken Language Processing, Jeju Island, Korea. — 2004.

64. Bishop Christopher M. Pattern Recognition and Machine Learning (Information Science and Statistics). — Secaucus, NJ, USA : Springer-Verlag New York, Inc., 2006, — ISBN: 0387310738.

65. Willsky A.S., Jones H.L. A generalized likelihood ratio approach to the detection and estimation of jumps in linear systems // Automatic Control, IEEE Transactions on. — 1976.— Feb.— Vol. 21, no. 1.— P. 108-112.

66. A speaker tracking system based on speaker turn detection for NIST evaluation / J.-F. Bonastre, P. Delacourt, C. Fredouille et al. // Acoustics, Speech, and Signal Processing, 2000. ICASSP '00. Proceedings. 2000 IEEE International Conference on. — Vol. 2. — 2000. — P. Ill 177-111180 vol.2.

67. Liu Daben, Kubala Francis. Fast Speaker Change Detection for Broadcast News Transcription and Indexing // Proceedings of the 6 th European Conference on Speech Communication and Technology (EuroSpeech) 3.— 1999.— P. 10311034.

68. Basseville Michèle. Distance measures for signal processing and pattern recognition // Signal Processing. — 1989, — Vol. 18, no. 4. — P. 349 - 369.

69. Do M.N. Fast approximation of Kullback-Leibler distance for dependence trees and hidden Markov models // Signal Processing Letters, IEEE. — 2003. — April.-Vol. 10, no. 4,—P. 115-118.

70. Радио «Свобода». — 2014. — URL: http : / /www. svoboda. org/.

71. Кудашев О. Ю. Агломеративная кластеризация речевых сегментов фонограммы на основе байесовского информационного критерия // Научно-технический вестник информационных технологий, механики и оптики. — 2013. -№ 1.-С. 90-93.

72. Towards robust speaker segmentation: The ICSI-SRI fall 2004 diarization system / Chuck Wooters, James Fung, Barbara Peskin, Xavier Anguera // In RT-04F Workshop. — 2004.

73. Unsupervised Methods for Speaker Diarization: An Integrated and Iterative Approach / S.H. Shum, N. Dehak, R. Dehak, J.R. Glass // Audio, Speech, and Language Processing, IEEE Transactions on.— 2013. —Oct. — Vol. 21, no. 10.-P. 2015-2028.

74. Kenny P., Boulianne G., Dumouchel P. Eigenvoice modeling with sparse training data // Speech and Audio Processing, IEEE Transactions on. — 2005.— May. — Vol. 13, no. 3.- P. 345-354.

75. Reynolds Douglas A., Kenny Patrick, Castaldo Fabio. A study of new approaches to speaker diarization. // INTERSPEECH. — ISCA, 2009. — P. 10471050.

76. Johnson S. E., Woodland P. C. Speaker Clustering Using Direct Maximisation Of The Mllr-Adapted Likelihood // PROC. ICSLP 98. - 1998. — P. 1775-1779.

77. Generating and Evaluating Segmentations for Automatic Speech Recognition of Conversational Telephone Speech / S. E. Tranter, K. Yu, G. Evermann, P. C. Woodland // PROC. ICASSP. - 2004.

78. Кудашев О. Ю., Пеховский Т. С. Проблемы инициализации систем сегментации дикторов на основе вариационного байесовского анализа // Научно-технический вестник информационных технологий, механики и оптики. — 2012. -№ З.-С. 83-87.

79. Exploiting Intra-Conversation Variability for Speaker Diarization. / Stephen Shum, Najim Dehak, Ekapol Chuangsuwanich et al. // INTERSPEECH. — ISCA, 2011. - P. 945-948.

80. Bayesian Analysis of Speaker Diarization with Eigenvoice Priors : Rep. / CRIM ; Executor: Patrick Kenny : 2008.

81. Clustering speakers by their voices / A. Solomonoff, A. Mielke, M. Schmidt, H. Gish // Acoustics, Speech and Signal Processing, 1998. Proceedings of the

1998 IEEE International Conference on. - Vol. 2.- 1998.-May. — P. 757760 vol.2.

82. Lapidot Itshak. SOM as likelihood estimator for speaker clustering. // INTERSPEECH. — ISCA, 2003.

83. Kenny P. Bayesian Speaker Verification with Heavy-Tailed Priors // Odyssey-2010. — Brno, Czech Republic, 2010.

84. Garcia-Romero Daniel, Espy-Wilson Carol Y. Analysis of i-vector Length Normalization in Speaker Recognition Systems // INTERSPEECH. — 2011.— P. 249-252.

85. Prince S.J.D., Elder J.H. Probabilistic Linear Discriminant Analysis for Inferences About Identity // Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on. — 2007. — Oct. — P. 1-8.

86. PLDA for speaker verification with utterances of arbitrary duration / P. Kenny, T. Stafylakis, P. Ouellet et al. // Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. — 2013. — May. — P. 76497653.

87. Brummer Niko. EM for Probabilistic LDA. — 2010.— URL: https://sites.google.com/site/nikobrummer/EMforPLDA.pdf,

88. Fisher Linear Discriminant Analysis : Rep. / University of Toronto, Department of Computer Science ; Executor: Max Welling : 2005.

89. 2008 NIST Speaker Recognition Evaluation.— 2008.— URL: http://www.itl.nist.gov/iad/mig//tests/sre/2008/.

90. The DET curve in assessment of detection task performance. / Alvin F. Martin, George R. Doddington, Terri Kamm et al. // EUROSPEECH / Ed. by George Kokkinakis, Nikos Fakotakis, Evangelos Dermatas. — ISCA, 1997.

91. Przybocki M.A., Martin A.F., Le A.N. NIST Speaker Recognition Evaluation Chronicles - Part 2 // Speaker and Language Recognition Workshop, 2006. IEEE Odyssey 2006: The. — 2006. — June.—P. 1-6.

92. Unsupervised Speaker Adaptation based on the Cosine Similarity for Text-Independent Speaker Verification / S. Shum, N. Dehak, R. Dehak, J. Glass // Odyssey The Speaker and Language Recognition.— Brno, Czech Republic, 2010.

93. Brummer Niko. EM4JFA. — 2010.- URL: https://sites.google.com/site/nikobrummer/EMforJFA.pdf.

94. Rota Gian-Carlo. he number of partitions of a set // American Mathematical Monthly. - 1964,- Vol. 71, no. 5. — P. 498-504.

95. Brummer Niko, de Villiers Edward. The speaker partitioning problem // Odyssey The Speaker and Language Recognition.— Brno, Czech Republic, 2010.

96. Valente Fabio. Variational Bayesian methods for audio indexing : Ph.D. thesis / Fabio Valente ; Thesis.— 2005. —09.— URL: http://www.eurecom.fr/publication/1739.

97. Bayesian analysis of similarity matrices for speaker diarization / A Sholokhov, T. Pekhovsky, O. Kudashev et al. // Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. — 2014.— May. — P. 106110.

98. Ng Andrew Y., Jordan Michael I., Weiss Yair. On Spectral Clustering: Analysis and an algorithm // ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS. - MIT Press, 2001.- P. 849-856.

99. Christianini N., Shawe-Taylor J., Kandola J. Spectral kernel methods for clustering // Neural Information Processing Systems 14. — 2002.

100. Charles J. Alpert So-Zen Yao. Spectral Partitioning: The More Eigenvectors, The Better // Design Automation, 1995. DAC '95. 32nd Conference on.— 1995,-P. 195-200.

101. Chung F.R.K. Spectral Graph Theory. CBMS Regional Conference Series no. 92.— Conference Board of the Mathematical Sciences, 1997. — ISBN: 9780821889367.

102. Dhillon Inderjit S., Guan Yuqiang, Kulis Brian. Weighted graph cuts without eigenvectors: A multilevel approach // IEEE Trans. Pattern Anal. Mach. Intell. - 2007. - Vol. 29. — P. 2007.

103. NIST Speaker Recognition Evaluation.— 2014.— URL: http://nist.gov/itl/iad/mig/sre.cfm.

104. AMI Meeting Corpus.— 2014,— URL: https://www.idiap.ch/dataset/ami/.

105.000 «Центр Речевых Технологий».— 2014,— URL:

http://www.speechpro.ru/.

106. Kinnunen Tomi, Chernenko Evgenia, Tuononen Marko et al. Voice Activity Detection Using MFCC Features and Support Vector Machine. — 2007.

107. LIUM Speaker Diarization Wiki.— 2014,— URL: http://www-lium.univ-lemans.fr/diarization/doku.php.

108. GNU Compiler Collection. — 2014. — URL: https : //gcc. gnu. org/.

109. Microsoft Visual Studio.— 2014.— URL: http://www.visualstudio.com/ru-ru.

110. CMake.—2014.—URL: http://www.cmake.org/.

111. Intel® Integrated Performance Primitives.— 2014.— URL: https://software.intel.com/en-us/intel-ipp.

112. Intel® Math Kernel Library.— 2014.— URL: https://software.intel.com/en-us/intel-mkl.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.