Автоматическая оценка качества речевых сигналов для систем голосовой биометрии и антиспуфинга тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Волкова Марина Викторовна

  • Волкова Марина Викторовна
  • кандидат науккандидат наук
  • 2022, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 225
Волкова Марина Викторовна. Автоматическая оценка качества речевых сигналов для систем голосовой биометрии и антиспуфинга: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2022. 225 с.

Оглавление диссертации кандидат наук Волкова Марина Викторовна

Реферат

Synopsis

Введение

Глава 1. Аналитический обзор систем голосовой биометрии и антиспуфинга

1.1. Системы голосовой биометрии

1.1.1 Классификация систем голосовой биометрии и основная терминология

1.1.2 Источники вариативности при распознавании по голосу

1.1.3 Основные метрики

1.1.4 Обзор методов голосовой биометрии

1.2. Системы антиспуфинга

1.2.1 Инициатива ASVspoof

1.3. Выводы

Глава 2. Методы оценки качества речевых сигналов

2.1. Субъективные методы оценки качества речевого сигнала

2.2. Методы оценки качества речевого сигнала, основанные на психоакустике

2.3. Объективные характеристики речевого сигнала

2.4. Автоматические методы оценки отношения сигнал/шум

2.5. Автоматические методы оценки времени реверберации

2.6. Методы оценки качества сигнала с использованием машинного обучения и нейронных сетей

2.7. Выводы

Глава 3. Метод обучения нейронной сети для автоматического предсказания оценки качества речевого сигнала

3.1. Методика подготовки баз данных

3.1.1 Реализация подготовки данных для обучения нейронной сети

3.1.2 Метод коррекции значения отношения сигнал/шум на коротких фрагментах

3.2. Метод обучения нейронной сети

3.3. Результаты работы нейросетевого предиктора качества

3.4. Выводы

Глава 4. Применение автоматической оценки качества сигнала для задач голосовой биометрии

4.1 Проблема стабилизации распределений оценок в системах голосовой биометрии

4.2 Стабилизация оценок верификации с использованием информации о качестве сигнала

4.3 Результаты замеров качества верификации

4.4 Выводы

Глава 5. Методика оценки качества совместного использования систем антиспуфинга и голосовой биометрии

5. 1 Комбинации ошибок при совместном использовании системы антиспуфинга и системы биометрии

5.2 Совместное влияние на детектирование спуфинг-атак модулями биометрии и антиспуфинга

5.3 Анализ со стороны системы голосовой биометрии

5.4 Каскадный и гибридный способы объединения модулей антиспуфинга и биометрии

5.5 Совместная оценка голосовой биометрии и антиспуфинга в зависимости от SNR и RT60

5.6 Анализ сбалансированности оценок антиспуфинга на классах spoofing и genuine в зависимости от SNR и RT60

5.7 Выводы

Заключение

Список публикаций по теме диссертации

Список сокращений и условных обозначений

Список литературы

Приложение А. Тексты публикаций

Реферат

Общая характеристика диссертации Актуальность темы. В настоящее время область голосовой биометрии представляет собой бурно развивающуюся область научных и прикладных исследований. Как и во многих других направлениях, основными инструментами современного развития данной области являются новые методы машинного обучения, такие как глубокое обучение на основе нейронных сетей. Благодаря наличию доступа к большим объемам открытых данных из сети Интернет и доступности современных мощных вычислительных ресурсов, необходимых для обучения сложных нейросетевых систем, стало возможным качественно развить системы голосовой биометрии до успешного применения в реальных практических условиях. При этом уже известно множество типов атак взлома биометрических систем на физическом (атаки перевоспроизведения) и логическом уровнях (атаки синтеза и преобразований голоса). Таким образом, все больше возрастает необходимость защиты биометрических систем от атак злоумышленников или развития систем антиспуфинга.

Вместе с тем, в процессе развития систем голосовой биометрии и антиспуфинга стала очевидной зависимость таких систем от качества речевого сигнала. Система, обученная на данных из некоторого источника в определенных акустических условиях, или домене, часто показывает снижение качества на данных в другом домене. Для адаптации системы к целевому домену может быть полезно знать его акустические условия: уровень и тип шума, а также время реверберации. Кроме того, информация о качестве сигнала может применяться для исследования границ применимости систем голосовой биометрии и антиспуфинга: в каких акустических условиях система выдаёт стабильный результат, а в каких на её решение нельзя полагаться? Необходимо также иметь в виду, что современные системы голосовой биометрии и антиспуфинга развиваются в сторону работы на коротких сегментах до двух секунд речевых, например, для авторизации по короткой парольной фразе в системах IVR или «умных колонках». Возникает

актуальная задача создания автоматической системы оценки качества речевых сигналов на коротких сегментах речи как вспомогательного инструмента в задачах голосовой биометрии и антиспуфинга. При этом особую сложность представляет автоматическая неэталонная оценка качества на коротких сегментах до двух секунд речи.

Степень разработанности темы исследования.

В области обработки сигналов для оценки акустических параметров сигнала обычно используются количественные характеристики, такие как отношение сигнал/шум (Signal-to-Noise Ratio, SNR) и время реверберации (Reverberation Time, RT60). В случае, когда имеется только искажённая шумами запись, и чистый сигнал не известен, необходимо использовать алгоритмы приближённой оценки SNR. С 2000-х годов известны методы автоматической оценки отношения сигнал/шум, основанные на статистических особенностях разделения спектров шума и речи, либо на нахождении некоторого параметра, коррелированного с отношением сигнал/шум, как в работе R. Martin [68]. Такие методы показывают высокое качество работы только на низко зашумлённых сигналах. Автоматические методы оценки реверберации могут быть основаны на нахождении пауз в речевом сигнале для отслеживания кривой затухания, либо на поиске акустического параметра, коррелированного с временем реверберации. Эти методы требуют наличия длительных пауз в речевом сигнале, либо дают оценку на длительном фрагменте речи.

Более современные методы автоматической оценки параметров качества сигнала основаны на применении нейронных сетей, как свёрточных (CNN), так и реккурентных (RNN, LSTM). Однако эти методы устойчиво работают с сигналами большой длительности. Таким образом, можно отметить следующие недостатки существующих решений по автоматической оценки качества речевых сигналов в терминах SNR и RT60:

• для проведения оценок требуются длинные речевые сегменты (от 4 секунд);

• для аналитической оценки RT60 требуется наличие больших пауз в сигнале;

• работа в ограниченных диапазонах SNR и RT60;

• не обеспечивается одновременная эффективная оценка SNR и RT60.

Поэтому задача разработки автоматического метода оценки качества

речевого сигнала на коротких сегментах речи, способного одновременно предсказывать различные аспекты качества речевого сигнала и устойчиво работающего в различных шумовых условиях, а также применение этого метода задачах голосовой биометрии и антиспуфинга является крайне актуальной на сегодняшний день задачей.

Целью диссертационной работы является развитие методов автоматической оценки качества речевых сигналов на коротких речевых сегментах для уменьшения ошибок распознавания совместной системы голосовой биометрии и антиспуфинга.

Для достижения данной цели в рамках диссертации были поставлены и решены следующие задачи:

1. Углубленное исследование существующих методов оценки качества речевого сигнала, в том числе для определения отношения сигнал/шум и уровня реверберации на коротких длительностях, а также методов голосовой биометрии и антиспуфинга, и обоснование выбора решений на основе аналитического обзора научно-технической литературы.

2. Разработка методики подготовки баз данных для обучения и тестирования системы автоматической оценки качества речевого сигнала на коротких длительностях.

3. Разработка методов обучения нейронной сети одновременно предсказывать такие параметры качества речевого сигнала, как отношение сигнал-шум, время реверберации и тип шума.

4. Разработка метода стабилизации оценок распознавания совместной системы голосовой биометрии и антиспуфинга с использованием автоматической оценки качества речевого сигнала на коротких сегментах.

5. Проведение экспериментальных исследований совместного использования систем голосовой биометрии и антиспуфинга и взаимного влияния ошибок, применимости разработанных методов на реальных данных с последующим внедрением результатов.

Методы исследования. Для достижения поставленной цели в диссертации применялись методы цифровой обработки сигналов, машинного обучения, методы голосовой биометрии и антиспуфинга, математической статистики. Основные положения, выносимые на защиту:

1. Методика подготовки базы речевых сигналов с посегментной разметкой уровня реверберации и отношения сигнал/шум, отличающаяся новым алгоритмом разметки значений отношения сигнал/шум на коротких сегментах речи.

2. Метод обучения системы автоматической оценки качества речевого сигнала на основе глубоких нейронных сетей, отличающийся возможностью одновременного предсказания уровня шума, реверберации и типа шума речевого сигнала на коротких речевых сегментах.

3. Метод стабилизации оценок распознавания совместной системы голосовой биометрии и антиспуфинга с использованием автоматической оценки качества речевого сигнала на коротких сегментах, отличающийся применением функции измерения качества для коррекции оценок распознавания и учётом границ применимости в зависимости от акустических условий и взаимного влияния систем голосовой биометрии и антиспуфинга.

Соответствие паспорту специальности 2.3.8 «Информатика и информационные процессы»: п. 4 «Разработка методов и технологий цифровой обработки аудиовизуальной информации с целью обнаружения закономерностей в данных, включая обработку текстовых и иных

изображений, видео контента. Разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения требуемой информации из текстов».

Научная новизна диссертации отражена в следующих пунктах: 1. Разработана методика подготовки базы речевых сигналов с посегментной разметкой уровня реверберации и отношения сигнал/шум, отличающаяся от своих аналогов получением истинных значений времени реверберации и локальных значений отношения сигнал-шум в условиях искусственных искажений.

2. Разработан метод обучения системы автоматической оценки качества речевого сигнала на основе глубоких нейронных сетей, позволяющий одновременно предсказывать уровень шума, реверберации и тип шума речевого сигнала на коротких речевых сегментах.

3. Разработан метод стабилизации оценок распознавания совместной системы голосовой биометрии и антиспуфинга с использованием автоматической оценки качества речевого сигнала на коротких сегментах, позволяющий учитывать качество речевого сигнала для уменьшения ошибок распознавания совместной системы голосовой биометрии и антиспуфинга.

Объектом исследования являются голосовые биометрические системы и системы антиспуфинга.

Предметом исследования являются методы автоматической оценки качества речевых сигналов.

Теоретическая и практическая значимость. Теоретическая значимость результатов диссертационной работы состоит в новой методике подготовки речевых баз с посегментной разметкой уровня реверберации и отношения сигнал/шум и с коррекцией разметки по отношению сигнал/шум на коротких фрагментах, в разработке нового метода обучения системы автоматической оценки качества речевого сигнала на основе глубоких нейронных сетей для одновременного предсказания уровня шума, реверберации и типа шума речевого сигнала, а также в подробном анализе взаимного влияния систем голосовой биометрии и антиспуфинга.

Практическая значимость результатов работы состоит в том, что разработанный метод автоматической оценки качества речевых сигналов позволяет достигать коэффициента корреляции Пирсона с реальными значениями качества более 0,90 как для оценки отношения сигнал/шум, так и для оценки времени реверберации в условиях телефонного канала на коротких 2 секундных сегментах речи, что открывает возможности для эффективного использования такого метода на практике. Например, с использованием предложенного метода автоматической оценки качества удалось уменьшить равновероятную ошибку системы биометрической верификации дикторов в сложных акустических условиях на 14% относительно исходного решения. Помимо этого, предложенные в диссертационной работе методики оценки качества совместного использования систем голосовой биометрии и антиспуфинга позволяют давать рекомендации по использованию таких систем на практике и в реальных условиях.

В рамках проведения исследования были разработаны программные модули, использовавшиеся для подготовки баз данных и для обучения искусственных нейронных сетей автоматически предсказывать качеств речевого сигнала, а также внедренные в коммерческие программные продукты Группы компаний «ЦРТ».

Достоверность обеспечивается апробацией полученных результатов на международных конференциях и успешным внедрением.

Внедрение результатов работы

Результаты научной работы использовались при проведении научных исследований:

- НИР 620172, "Определение структуры полилога с применением лексических и нелексических признаков речи нескольких дикторов", Университет ИТМО.

Разработанная система автоматической оценки качества речевого сигнала была реализована как утилита SDK голосовой биометрии Группы компаний "ЦРТ".

Также была подана заявка на международный патент: P-484/21PCT 12/11/2020 «Method for automatic quality evaluation of speech signals

using neural networks for selecting a channel in multimicrophone systems» VOLKOVA Marina Viktorovna, NOVOSYOLOV Sergey Aleksandrovich, LAVRENTYEVA Galina Mihaylovna, ANDZHUKAEV Tseren Vladimirovich, GUSEV Aleksey Evgenyevich.

Апробация результатов работы. Основные результаты работы докладывались и обсуждались на следующих международных и российских конференциях: «INTERSPEECH - 2020» (Шанхай, Китай, 2020), X Конгресс молодых ученых (КМУ) (Университет ИТМО, 14.04.2021 — 17.04.2021), IX Всероссийский конгресс молодых ученых (Университет ИТМО, 15.04.2020 -18.04.2020).

Личный вклад автора. Автором лично проведен анализ существующих методов оценки качества сигнала, различных подходов к калибровке систем голосовой биометрии, а также методик совместной оценки качества биометрии и антиспуфинга. На основе проведенного анализа автором разработаны предлагаемые методы автоматической оценки качества речевого сигнала, методика подготовки баз обучения и тестирования. Автором была исследована совместная работа систем биометрии и антиспуфинга и разработана система рекомендаций для их эффективного обучения. Подготовка основных публикаций проводилась с соавторами. Ниже приведён вклад соавторов совместных публикаций.

В работе «Astapov S., Gusev A., Volkova M., Logunov A., Zaluskaia V., Kapranova V.O., Timofeeva E., Evseeva E., Kabarov V., Matveev Y.N. Application of Fusion of Various Spontaneous Speech Analytics Methods for Improving Far-Field Neural-Based Diarization // Mathematics - 2021, Vol. 9, No. 23, pp. 2998» Gusev A. проводил эксперименты с диаризацией дикторов, обзором литературы по методам голосовой биометрии и диаризации и занимался написанием соответствующих глав; Volkova M. проводила эксперименты с применением автоматической оценки качества сигнала для уточнения пауз, обзором литературы по методам автоматической оценки качества и занималась написанием соответствующих глав; Logunov A. проводил эксперименты с детектором речевой активности и

комбинированием систем; Zaluskaia V. и Kapranova V.O. проводили и описывали эксперименты с обучением предикторов пересекающейся речи; Timofeeva E., Evseeva E. проводили и описывали эксперименты с обучением системы определения количества дикторов; Astapov S. осуществлял коррекцию текста и руководство проектом; Kabarov V. и Matveev Y.N. проводили консультирование.

В работе «Lavrentyeva G., Volkova M., Avdeeva A., Novoselov S., Gorlanov A., Andzukaev T., Ivanov A., Kozlov A. Blind speech signal quality estimation for speaker verification systems // Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH - 2020, pp. 1535-1539» Lavrentyeva G. проводила обзор литературы, подготовку базы AMI, написание текста; Volkova M. занималась подготовкой обучающих и тестовых баз, проведением экспериментов по обучению систем и написание текста; Avdeeva A. проводила и описывала эксперименты по оценке качества систем; Novoselov S. проводил эксперименты по стабилизации оценок системы верификации дикторов; Gorlanov A., Andzukaev T., Ivanov A. занимались подготовкой детектора речевой активности; Kozlov A. проводил техническое консультирование.

В работе «Volkova M.V., Andzhukaev T., Lavrentyeva G., Novoselov S., Kozlov A. Light CNN Architecture Enhancement for Different Types Spoofing Attack Detection // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) - 2019, Vol. 11658, pp. 520529» Volkova M.V. занималась написанием основного текста статьи и проведением экспериментов; Andzhukaev T. проводил эксперименты и делал графики; Lavrentyeva G. и Novoselov S. делали коррекцию текста и общее руководство; Kozlov A. предоставлял необходимый программный комплекс.

В работе «Lavrentyeva G., Novoselov S., Andzhukaev T., Volkova M., Gorlanov A., Kozlov A. STC Antispoofing Systems for the ASVspoof2019 Challenge // Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH - 2019, pp. 1033-1037» Lavrentyeva G., Novoselov S., Andzhukaev T., Volkova M., Gorlanov A. проводили и описывали различные эксперименты по подготовке признаков и обучению систем для конкурса

ASVspoof2019; Kozlov A. проводил техническое консультирование; Lavrentyeva G. дополнительно осуществляла руководство командной работой.

«Lavrentyeva G., Novoselov S., Volkova M.V., Matveev Y.N., De Marsiko M. Phonespoof: A New Dataset for Spoofing Attack Detection in Telephone Channel // ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing -Proceedings - 2019, pp. 2572-2576», Lavrentyeva G. занималась реализацией предложенного метода сбора баз и написанием основного текста; Volkova M.V. подготовила программный комплекс для сбора базы Lyrebird; Novoselov S. проводил эксперименты по тестированию; Matveev Y.N. и De Marsiko проводили научное консультирование.

В работе «Tomilov, A., Svishchev, A., Volkova, M., Chirkovskiy, A., Kondratev, A., Lavrentyeva, G. STC Antispoofing Systems for the ASVspoof2021 Challenge // Proc. 2021 Edition of the Automatic Speaker Verification and Spoofing Countermeasures Challenge - 2021, pp. 61—67» Tomilov A. и Svishchev A. проводили и описывали эксперименты по обучению систем для трека LA в конкурсе ASVspoof2021; Volkova M. и Chirkovskiy A. проводили и описывали эксперименты по обучению систем для трека DF; Kondratev A. проводил эксперименты по обучению систем для трека PA; Lavrentyeva G. осуществляла комбинирование систем и коррекцию текста.

В работе «Gusev A., Volokhov V., Andzhukaev T., Novoselov S., Lavrentyeva G., Volkova M., Gazizullina A., Shulipa A., Gorlanov A., Avdeeva A.S., Ivanov A., Kozlov A., Pekhovsky T., Matveev Y. Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances // Proc. Odyssey 2020 The Speaker and Language Recognition Workshop - 2020, pp. 179-186» Gusev A. проводил обучение основных экстракторов и написание текста; Volokhov V., Andzhukaev T., Novoselov S., Lavrentyeva G., Gazizullina A., Shulipa A., Gorlanov A., Avdeeva A.S., Ivanov A. проводили эксперименты по обучению различных типов экстракторов; Volkova M. осуществляла подготовку данных и эксперименты с обучением экстракторов; Novoselov S. и Lavrentyeva G. проводили научное руководство проектом; Kozlov A., Pekhovsky T. и Matveev Y. проводили научное консультирование.

Публикации. Основные результаты по теме диссертации изложены в семи публикациях, пять из которых входят в международные реферативные базы данных и системы цитирования Scopus, Web of Science.

Объём и структура диссертации. Диссертация состоит из введения, пяти глав, заключения и одного приложения. Полный объём диссертации составляет 87 страницы, включая 10 рисунков и 23 таблицы. Список литературы содержит 114 наименований.

Содержание работы

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Автоматическая оценка качества речевых сигналов для систем голосовой биометрии и антиспуфинга»

Введение

Во введении раскрывается текущее состояние и актуальность разработки систем голосовой биометрии и антиспуфинга, поднимается проблема зависимости качества работы этих систем от акустической среды и показана необходимость иметь инструмент автоматической оценки качества сигнала, разработка которого стала основной задачей данной диссертационной работы. Сформулированы цель, задачи и положения, выносимые на защиту. Изложена научная новизна и практическая значимость полученных в диссертационной работе результатов.

Первая глава раскрывает задачу детектирования личности по голосу и методы обнаружения фальсифицированных представлений (спуфинг-атак) на входе системы голосовой биометрии. Системы голосовой биометрии как средство аутентификации пользователя находят всё больше применений, особенно в финансовой сфере. Но наряду с усовершенствованием технологий голосовой биометрии, непрерывно совершенствуются методы их взлома, называемые спуфинг-атаками. Спуфинг-атака — это представление фальсифицированных биометрических данных легального зарегистрированного пользователя для получения несанкционированного доступа к системе. В главе 1 приведена основная необходимая терминология из области голосовой биометрии и антиспуфинга, даны основные метрики качества (EER, DCF, t-DCF), рассмотрены виды вариативности речевых сигналов, затрудняющие разработку биометрических систем. Описывается краткая история подходов голосовой биометрии, как методов

предыдущего поколения на основе факторного анализа, так и переход к нейронным сетям и актуальным на данный момент архитектурам. Также описываются подходы к детектированию основных видов спуфинг-атак: атак повторного воспроизведения, синтеза и преобразования речи на примере конкурсов ASVspoof 2015 - 2021.

Глава 2 посвящена обзору методов оценки качества речевых сигналов.

Выбор способа оценки качества речевого сигнала зависит от области конкретного применения. При создании кодеков или для систем телефонной связи важным условием является сохранение разборчивости речи в процессе сжатия и передачи сигнала. Поэтому в системах телекоммуникаций часто используются подходы из психофизиологии слуха, позволяющие сохранить только такую информацию из сигнала, которую способен воспринимать человек (частотную, динамическую). Итоговое качество полученного речевого сигнала после применения различных кодеков оценивается с помощью субъективной экспертной оценки либо с помощью автоматических методов, основанных на психоакустике.

В задачах машинного обучения часто требуется знать объективные характеристики сигнала: громкость шума относительно речи, уровень реверберации, частотный и динамический диапазон. Эти параметры определяют границы возможного использования обученных систем, помогают удалять фрагменты данных ненадлежащего качества, либо, напротив, проводить искусственную аугментацию данных для моделирования реальных условий. Несмотря на то, что эти параметры являются объективными, их определение часто представляет трудности, особенно на коротких сегментах аудио. Далее будут рассмотрены основные характеристики качества сигнала и существующие подходы к их оценке.

В разделе 2.1 описываются субъективные методы оценки качества речевого сигнала. Наиболее известным субъективным способом оценки качества речевых сигналов является MOS-оценка (Mean Opinion Score) — субъективно-

статистические испытания с помощью группы слушателей-экспертов. Она вычисляется как среднее арифметическое от N независимых экспертных оценок Rn:

tN

mos=' n

£п=1 Дп

(2)

Рекомендации для проведения MOS-оценки качества передачи сигналов в телефонных сетях описаны Международным союзом электросвязи в ITU-T Recommendation P.800. Оценки чаще всего даются по пятибалльной шкале в абсолютных категориях (ACR - Absolute Category Rating): плохое качество (bad), недостаточное (poor), удовлетворительное (fair), хорошее (good), отличное (excellent). Сценарий эксперимента может быть как пассивным, в виде прослушивания заранее подготовленных аудиозаписей, так и интерактивным. В интерактивном сценарии пары испытателей вступают в имитированный телефонный диалог, что позволяет оценить влияние реальной задержки и эха при тестировании отдельных систем телефонного оборудования или кодеков.

Оцениваться слушателями-экспертами может как качество речи в общем, так и необходимость усилия при прослушивании (mean listening-effort opinion score), а также предпочтительная громкость (mean loudness-preference opinion score). Если необходимо сравнить степень ухудшения или улучшения сигнала при его обработке по сравнению с исходным эталоном, используется модификация MOS-оценки — DMOS (degradation mean opinion score).

Помимо телеком-приложений, MOS-оценка также используется при тестировании систем синтеза речи. При этом по пятибалльной шкале оцениваются такие параметры, как общее качество звука, усилие при прослушивании, проблемы с пониманием, артикуляция, произношение, скорость речи и приятность голоса. Если количество экспертов достаточно большое, то полученная MOS-оценка отражает среднее качество речевого сигнала при восприятии человеком на слух. Однако, при проведении испытаний следует учитывать психологические аспекты восприятия и оценки: например, слушатель-эксперт часто стремится задействовать весь диапазон оценок при прослушивании данных ему образцов, и "худшую"

оценку даёт аудиозаписи, которую другой более опытный эксперт оценил бы как "среднюю". При использовании качественных оценок может оказать влияние язык, на котором проводится эксперимент, а также нелинейность оценок (например, эксперты могут не ощущать большую разницу между характеристиками "хорошо" и "отлично"). Наконец, MOS-оценка является крайне ресурсозатратной, поэтому давно разработаны автоматические методы её предсказания.

В разделе 2.2 описываются методы оценки качества речевого сигнала, основанные на психоакустике. Знания о слуховых особенностях восприятия речи человеком послужили основой для создания автоматических методов оценки качества сигнала. Чаще всего такие методы основаны на сравнении исходного (эталонного) сигнала с сигналом, подвергшимся обработке, с точки зрения человеческого восприятия: насколько искажения заметны на слух. Целью при создании таких алгоритмов оценки качества было добиться высокой корреляции с экспертной MOS-оценкой.

Наиболее распространёнными являются перцептивная оценка качества речи Perceptual Evaluation of Speech Quality (PESQ) и ее усовершенствованная версия — перцептивная объективная оценка качества восприятия речи Perceptual Objective Listening Quality Analysis (POLQA). Алгоритм PESQ производит временное выравнивание эталонного и искажённого фрагментов аудиосигнала и находит следующие особенности при сравнении: искажения при кодировании, ошибки при передаче, потеря пакетов, время задержки передачи пакетов, фильтрация сигнала в аналоговых сетевых компонентах. Алгоритм POLQA работает с более широкой полосой пропускания (50-14000 Гц), может использоваться в сетях 3G, 4G/LTE и для оценки качества голоса/видео высокой четкости (HD). Существует также алгоритм Perceptual Evaluation of Audio Quality (PEAQ), нацеленный на оценку качества аудио (музыки).

Недостаток приведённых методов в том, что они требуют наличия для оценки эталонного сигнала, что не всегда доступно на практике. Пассивные методы, не требующие эталонного образца, имеют более низкие корреляции с MOS-оценкой.

Кроме того, оценки PESQ/POLQA трудно интерпретируемы и не позволяют понять, какие именно характеристики сигнала влияют на итоговую оценку.

В разделе 2.3 описываются объективные характеристики речевого сигнала. В области обработки сигналов для оценки того или иного искажения обычно используются количественные характеристики, такие как отношение сигнал/шум и время реверберации.

Отношение сигнал/шум выражается через отношение мощностей сигнала и шума, и может быть представлено с использованием следующего математического выражения:

где SNR — отношение сигнал/шум, Р51дпа1 и Р-по1зе — средняя мощность сигнала и шума, А31дпа1 и АП013е — среднеквадратическое значение амплитуды сигнала и шума.

Время реверберации - один из основных параметров для описания акустический среды области пространства, в которой проводилась запись речи. Чаще всего, оно определяется как время, за которое уровень звука уменьшается на 60 дБ (в 1 млн. раз по мощности или в 1000 раз по звуковому давлению). В литературе время реверберации, определенное таким образом, обычно обозначается как ЯТ60 или Т60. Существуют устоявшиеся методы для определения ЯТ60 по известной импульсной характеристике помещения, однако в реальных сценариях работы со звукозаписями, полученными из произвольных источников, импульсная характеристика не доступна. Поэтому становится актуальной задача приблизительной оценки времени реверберации по данной звукозаписи без дополнительных сведений об акустических условиях.

Среди автоматических методов оценки отношения сигнал/шум можно выделить несколько групп:

(3)

- методы, основанные на разделении энергетических спектров шума и речи;

- методы, основанные на статистиках высокого порядка полученных из выборок сигналов;

- методы, основанные на оценке статистических параметров распределений спектральных амплитуд.

Эти методы рассматриваются в разделе 2.4, где также указывается наличие ограничений: например, эти методы работают стабильно только в условиях стационарных шумов и при положительных значениях SNR.

В разделе 2.5 проводится аналогичный обзор для методов автоматической оценки времени реверберации. Кратко охарактеризованы аналитические методы, не требующие предварительной информации: например, метод максимального правдоподобия, использующий статистическую модель затухания, а также методы, основанные на оценке некоторого параметра, коррелированного с временем реверберации -для этих целей, например, вводится понятие "дисперсия отрицательной стороны" ("negative-side variance"), основанное на распределении скоростей затухания реверберированной речи.

В разделе 2.6 описываются нейросетевые методы для оценки качества речевого сигнала. Ряд работ посвящен обучению нейронных сетей выдавать оценку, коррелированную с PESQ, POLQA или MOS. Существующие нейросетевые методы, предсказывающие SNR, основываются таких нейросетевых архитектурах, как Long Short-Term Memory (LSTM) и Recurent Neural Network (RNN), Deep complex convolution recurrent network (DCCRN). В таких работах решается задача улучшения разборчивости речи, при этом оценка SNR часто производится как вспомогательный этап.

Существующие нейросетевые методы, предсказывающие RT60, основываются на архитектурах Convolutional Neural Network (CNN). В работе H. Gamper нет ссылки оценка RT60 производится на фрагментах речи длительностью

4 секунды, из которых извлекаются признаки на основе гамматонных банков фильтров, и затем подаются в шестислойную свёрточную сеть. Авторам удалось добиться хороших результатов при оценке RT60 с коэффициентом корреляции Пирсона р = 0.836. Однако длительность используемых ими фрагментов (4 секунды) не позволяет эффективно использовать предложенный подход в реальных сценариях использования систем голосовой биометрии на коротких длительностях.

Таким образом, можно отметить следующие недостатки существующих решений по автоматической оценки качества речевых сигналов в терминах SNR и RT60:

• для проведения оценок часто требуются длинные речевые сегменты (от 4 секунд);

• для стабильной аналитической оценки RT60 требуется наличие больших пауз в сигнале;

• работа в ограниченных диапазонах SNR и RT60;

• не обеспечивается одновременная эффективная оценка SNR и RT60.

Данный обзор выявил необходимость разработки нейросетевой системы,

предсказывающей одновременно SNR, RT60 и тип шума на коротких речевых фрагментах.

Глава 3 посвящена методу обучения нейронной сети предсказывать автоматическую оценку качества сигнала.

Раздел 3.1 описывает методику подготовки баз данных. Для обучения нейронной сети предсказывать параметры SNR и RT60 сигнала необходимы обучающая и тестовая базы, содержащие сигналы, искажённые шумами и реверберацией в нужном диапазоне значений.

Исходные данные:

• множество чистых речевых сигналов (NIST2002/2008, STC);

• множество стационарных шумовых сигналов различных типов (FreeSound, MUSAN);

• база специально сгенерированных импульсных характеристик, имитирующих комнаты различных размеров. Аугментация с нужными значениями SNR и ЯТ60:

Рисунок 1. Схема получения обучающей базы При проведении экспериментов с обучением нейронной сети была выявлена следующая проблема. И речь, и реальные шумы являются нестационарными сигналами, что делает невозможным использование глобального значения SNR на коротких (до 2 сек) фрагментах речи. Поэтому глобальное значение отношения сигнал/шум, полученное на этапе подготовки данных, и единое для целого файла, должно быть скорректировано для каждого короткого сегмента этого файла по формуле:

prev

Ы. L-d ^^^

SNRlocal = 10 * \og10(0^rev )

Р nnoise

(4)

?rev ■'noise

где Е™" - энергия реверберированного речевого сигнала до зашумления и Я* энергия реверберированного шума. Коэффициенты а и р для каждого сигнала находятся с помощью решения системы линейных уравнений по четырем фрагментам сигнала:

wo = + №L(0 for i g {1... 4}

Раздел 3.2 описывает метод обучения нейронной сети. В основе модели рассматриваемого предиктора качества лежит архитектура на базе глубокой свёрточной нейронной сети ResNet18. Обучение модели происходило в режиме многозадачности: нейронная сеть одновременно обучалась предсказывать SNR, RT60, интегральную оценку качества OQ и класс шума.

Интегральная оценка качества вводилась как вспомогательная метрика при помощи следующих выражений:

_ 1

— 1 + е-0,25(™КдБ-15) (6)

1

•5дТ60 — 1 + е0,0125(ДТ60мс-600) (7)

0Q — ^БЖ^^ТбО (8)

где SsNR — оценка уровня SNR речевого сегмента, •5дтбо — оценка уровня реверберации речевого сегмента, OQ — интегральная оценка качества речевого сегмента, SNRдБ — значение SNR речевого сегмента в децибелах,

RT60мC — значение времени реверберации в миллисекундах для речевого сегмента.

Для автоматической оценки SNR и RT60 рассматривалась регрессионная модель предиктора, обучаемая с использованием стоимостной функции на основе среднеквадратической ошибки (MSE). Оценка OQ и класса шума была основана на использовании классификатора, обучаемого с помощью бинарной кросс-энтропии (ВСЕ).

L—10•BCEoQ+0,001•MSE (RT60мс)+MSE (SNRдБ)+

(9)

10-ВСЕ (класс шума)

где L — комбинированная функция потерь, ВСЕ^ — бинарная кросс-энтропийная функция потерь для интегральной оценки качества, MSE ^Т60мс) — функция потерь на основе среднеквадратической ошибки для оценки RT60, MSE(SNRдБ) —

функция потерь на основе среднеквадратической ошибки для оценки SNR, ВСЕ (класс шума) — бинарная кросс-энтропийная функция потерь для классификации шума.

Схематично модель оценки качества представлена на рисунке 2. Оценка качества происходила на основе использования информативных характеристик речевого сигнала, таких как 64-мерные банки фильтров по мел-шкале с использованием логарифма энергии (fЪanks64).

Классы шумов

Модель оценки качества

J L

Признаки

Рисунок 2. Схематичное изображение модели оценки качества речевого

сигнала

В Таблицах 1 и 2 приведены результаты работы предложенной нейросетевой системы для предсказания SNR и RT60 в терминах средней абсолютной ошибки (Mean Absolute Error, MAE), среднеквадратичной ошибки (MSE, Mean Squared Error), среднего отклонения (Bias) и коэффициента корреляции Пирсона (Pearson) на базах Nist 2008 (аугментированная версия) и ACE. Оценки RT60 и SNR строились на интервалах в 1 сек., затем усреднялись по файлу.

Таблица 1. Оценка значений RT60 предложенной нейросетевой системой

Оценка RT60

База MAE, сек MSE, сек Bias, сек Pearson

Nist 2008 0,074 0,012 0,038 0,98

ACE 0,153 0,039 0,141 0,91

Результаты представленной нейросетевой системы, полученные для оценки значений RT60, согласуются с лучшими результатами конкурса ACE (Acoustic Characterization of Environments Challenge) дать ссылку за исключением среднего отклонения (Bias):

Таблица 2. Оценка значений RT60, предложенная в работе T. de M. Prego et al [70].

Оценка RT60, алгоритм "QA Reverb"

База Алгоритм MSE, сек Bias, сек Pearson

ACE "QA Reverb" 0,0648 -0,068 0,778

Таблица 3. Оценка значений SNR предложенной нейросетевой системой

Оценка SNR

База MAE, дБ MSE, дБ Bias, дБ Pearson

NIST_2008_aug 4,58 29,29 3,97 0,94

ACE 5,10 43,48 0,141 0,79

В Таблицах 4 и 5 - процент тестовых примеров, нейросетевая оценка на которых попала в заданный интервал отклонения от истинного значения (в дБ или мс).

Результаты данной главы подтверждают положения .№1 и №2, выносимые на защиту: «Методика подготовки базы речевых сигналов с посегментной разметкой уровня реверберации и отношения сигнал/шум, отличающаяся новым алгоритмом разметки значений отношения сигнал/шум на коротких сегментах речи» и «Метод обучения системы автоматической оценки качества речевого сигнала на основе глубоких нейронных сетей, отличающийся возможностью одновременного предсказания уровня шума, реверберации и типа шума речевого сигнала на коротких речевых сегментах» и были опубликованы в работах: «Lavrentyeva G., Volkova M., Avdeeva A., Novoselov S., Gorlanov A., Andzukaev T., Ivanov A., Kozlov A. Blind speech signal quality estimation for speaker vérification systems // Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH - 2020, pp. 1535-1539».

Глава 4 описывает применение автоматической оценки качества сигнала для задач голосовой биометрии и антиспуфинга.

В разделе 4.1 описывается эксперимент по стабилизации оценок верификации диктора. В области голосовой биометрии известна проблема, что условия записи эталонных и тестовых речевых образцов влияют на смещение распределений оценок верификации. Это приводит к разбросу оптимальных порогов принятия решений в зависимости от условий и невозможности применять систему верификации универсально.

Таблица 4. Процент попадания в интервал от истинного значения для оценок SNR

Таблица 5. Процент попадания в интервал от истинного значения для оценок ЯТ60

Ошибка оценки SNR < NIST_2008_aug ACE

+- 3 дБ 33% 39%

+- 5 дБ 59% 58%

+- 10 дБ 96% 87%

Ошибка оценки RT60 < NIST_2008_aug ACE

+-100 мс 75% 41%

+- 200 мс 92% 71%

+-300 мс 98% 88%

В данной работе было предложено моделировать смещения таких распределений с помощью полиномов 3 степени и предложенной системы автоматической оценки качества сигнала по SNR и RT60 на некоторой настроечной базе (например, dev множестве CHiME-5). Полиномиальная аппроксимирующая функция оценивает распределение средних значений оценок биометрической верификации S ("score") при сравнении двух сигналов test и enroll, в зависимости от их параметров качества. Аргументами полиномиальных аппроксимирующих функций дtar и были значения SNR (RT60) для входящих сигналов test и значения SNR (RT60) для входящих сигналов enroll, значение функции - среднее значение оценки биометрической верификации S при сравнении test и enroll при заданном SNR (RT60).

Рисунок 3. Аппроксимация Рисунок 4. Аппроксимация

зависимости Mu target от значения SNR эталонов и тестов на базе сгенерированного протокола на данных конкурса chime 5

зависимости Mu impostor от значения SNR эталонов и тестов на базе

сгенерированного протокола данных конкурса chime 5

на

Для каждой оценки верификации сдвиг находится следующим образом:

= - (10)

^гаг ^гаг(Яв'Чг) ^1тр^1тр(Че'Чг) (11)

где Sraw - исходное значение выходнойоценки верификации, Snew - новое компенсированное значение выходной оценки верификации, - параметры

качества сигналов при регистрации и тестировании, соответственно (в данной работе - SNR или RT60), дtar и дimp - аппроксимирующие функции средних значений выходных оценок верификации в зависимости от параметров качества, Ctar и Cimp - настраиваемые коэффициенты, qt) - функция измерения

качества («quality measure function»).

Результаты применения qmf-преобразования отражены в таблице 6.

Таблица 6. Результаты применения различных вариантов QMF на базах VOiCES и SITW в терминах ЕЕЯ, %

Тип QMF VOiCES SITW

dev eval dev eval

Initial scores 1,24 6,02 2,00 2,17

SNR 1,20 5,44 1,86 2,07

RT60 1,25 5,45 2,01 2,16

SNR&RT60 1,20 5,19 1,86 2,07

Результаты данной главы подтверждают положение №3, выносимое на защиту: «Метод стабилизации оценок распознавания совместной системы голосовой биометрии и антиспуфинга с использованием автоматической оценки качества речевого сигнала на коротких сегментах, отличающийся применением функции измерения качества для коррекции оценок распознавания и учётом границ применимости в зависимости от акустических условий и взаимного влияния систем голосовой биометрии и антиспуфинга» и были опубликованы в работах: «Lavrentyeva G., Volkova M., Avdeeva A., Novoselov S., Gorlanov A., Andzukaev T., Ivanov A., Kozlov A. Blind speech signal quality estimation for speaker verification systems // Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH - 2020, pp. 1535-1539», «Astapov S., Gusev A., Volkova M., Logunov A., Zaluskaia V., Kapranova V.O., Timofeeva E., Evseeva E., Kabarov V., Matveev Y.N. Application of Fusion of Various Spontaneous Speech Analytics Methods for Improving Far-Field Neural-Based Diarization // Mathematics - 2021, Vol. 9, No. 23, pp. 2998».

Пятая глава посвящена методике оценки качества совместного использования систем антиспуфинга и голосовой биометрии. Поднимается проблема, связанная с тем, что большинство научных работ рассматривают модули биометрии (ASV - automatic speaker verification) и антиспуфинга (CM -countermeasure) независимо, несмотря на то, что на практике они используются в каскаде:

Рисунок 5. Пример каскадной системы CM-ASV

В разделе 5.1 вводится основная терминология: target/impostor trial -целевые/нецелевые попытки верификации, genuine - подлинная запись в отличие от spoofing - спуфинг-атаки. Приводятся все возможные комбинации ошибок при совместном использовании систем ASV и CM.

В разделе 5.2 изучается совместное влияние на детектирование спуфинг-атак модулями голосовой биометрии и антиспуфинга. Система голосовой биометрии может самостоятельно блокировать спуфинг-атаку, если голосовые признаки поступившего на вход речевого сигнала-атаки не похожи на хранимый в базе голосовой эталон. Для исследования устойчивости комплекса ASV-CM к различным атакам необходимо проводить совместные измерения, чтобы определить, с какими видами спуфинг-атак не справляется ни голосовая биометрия, ни антиспуфинг.

Таблица 7. Ошибки False Accept на различных датасетах, где FAcm - при независимом использовании модуля антиспуфинга и FAcm-asv - совместно с модулем биометрии.

База данных FAcm FAcm-asv gain

ASVspoof2017_replay 19,73 18,95 0,78

ASVspoof2019_replay 18,32 16,59 1,73

ASVspoof2015_TTS 9,80 9,07 0,73

ASVspoof2015_VC 0,05 0,00 0,05

ASVspoof2019_TTS 1,06 1,03 0,03

ASVspoof2019_VC 0,37 0,18 0,19

В Таблице 7 приведены замеры на атаках по типу речевого синтеза (TTS), преобразования речи (VS) и повторного воспроизведения (replay):

• наибольшее уменьшение ошибки FA за счёт биометрии достигается на базе ASVspoof2019_replay с имитацией устройств воспроизведения;

• база ASVspoof2017_replay с реальными перевоспроизведениями остаётся сложной и для CM, и для ASV;

• рассматриваемый метод биометрии лучше справляется с атаками VC, чем TTS на базе ASVspoof2019.

Исходя из такого анализа, можно дать рекомендации: обучать систему антиспуфинга на реальных replay атаках и с разнообразием типов синтеза речи (TTS).

В разделе 5.3 делается анализ со стороны системы голосовой биометрии. Модуль биометрии (ASV), работающий самостоятельно, также имеет два типа ошибок: False Reject (FR) в случае отклонения целевой попытки верификации (target trial), и False Accept (FA) в случае принятия нецелевой попытки верификации (impostor trial). При дополнительном использовании модуля антиспуфинга (CM) в каскадной системе ошибка FR может увеличиваться за счёт сигналов, ошибочно принятых за спуфинг-атаку, однако при наличии реальных спуфинг-атак одновременно должна снижаться ошибка FA за счёт эффективности CM-модуля. Если стоимость FR и FA ошибок одинакова, то можно найти долю содержания

спуфинг-атак в тестовой базе, начиная с которого польза от уменьшения FA при использовании модуля антиспуфинга превышает потери по FR. Это отражено в Таблице 8.

В этом эксперименте доля спуфинг-атак (первый столбец) считалась по отношению к количеству impostor тестов, принятому за 1. Прирост ошибки FR отражён в параметре FRdiff (четвёртый столбец таблицы). С ростом доли спуфинга ошибка FAasv одиночной ASV-системы увеличивается, так как ASV-система плохо справляется самостоятельно со спуфинг-атаками, но при добавлении CM-модуля FAcm-asv становится значительно меньше. В последнем столбце FAdiff отражено уменьшение ошибки FA. Если считать стоимости ошибок FR и FA одинаковыми, можно найти пороговую долю атак, при которой выигрыш по FA превышает проигрыш по FR. Такие строки для каждой базы выделены жирным шрифтом.

Таблица 8. FR-FA компромисс при различных долях спуфинг-атак в

тестовой базе

Доля атак,% FRasv FRcm-asv FRdiff FAasv FAcm-asv FAdiff

ASVspoof2019_replay

0 0,097 0,203 +0,106 0,097 0,087 -0,010

0,01 0,097 0,203 +0,106 0,105 0,087 -0,018

0,05 0,097 0,203 +0,106 0,132 0,090 -0,042

0,1 0,097 0,203 +0,106 0,163 0,091 -0,072

0,2 0,097 0,203 +0,106 0,218 0,097 -0,121

0,5 0,097 0,203 +0,106 0,342 0,111 -0,237

ASVspoof2019_TTS

0 0,052 0,087 +0,035 0,051 0,050 -0,001

0,01 0,052 0,087 +0,035 0,058 0,049 -0,009

0,05 0,052 0,087 +0,035 0,082 0,048 -0,034

0,1 0,052 0,087 +0,035 0,110 0,046 -0,064

0,2 0,052 0,087 +0,035 0,158 0,043 -0,115

0,5 0,052 0,087 +0,035 0,265 0,036 -0,220

ASVspoof2019_VC

0 0,050 0,054 +0,004 0,049 0,049 0

0,01 0,050 0,054 +0,004 0,052 0,048 -0,004

0,05 0,050 0,054 +0,004 0,065 0,047 -0,018

0,1 0,050 0,054 +0,004 0,077 0,044 -0,033

0,2 0,050 0,054 +0,004 0,103 0,041 -0,062

0,5 0,050 0,054 +0,004 0,154 0,033 -0,121

Такой подход к анализу позволяет дать рекомендации по проценту спуфинг-атак для каждого домена, при котором использование модуля антиспуфинга может быть осмысленным.

В разделе 5.4 сравниваются каскадный и гибридный способы объединения модулей антиспуфинга и биометрии. Примеры совместного использования модулей CM и ASV, описанные выше, относятся к каскадному типу. Такое решение выглядит довольно естественным, так как CM и ASV решают разные задачи. При этом не важен порядок соединения модулей, поскольку сигнал проходит верификацию, только если обе системы выдали на нём значение истины ("genuine" - в случае CM и "target" - в случае ASV).

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Волкова Марина Викторовна, 2022 год

Список литературы

[1] Hansen J. H. L., Hasan T. Speaker recognition by machines and humans: A tutorial review //IEEE Signal processing magazine. - 2015. - T. 32. - №. 6. - C. 74-99.

[2] Leeuwen D. A., Brummer N. An introduction to application-independent evaluation of speaker recognition systems //Speaker classification I. - Springer, Berlin, Heidelberg, 2007. - C. 330-353.

[3] Reynolds D. A. Comparison of background normalization methods for text-independent speaker verification //Fifth European Conference on Speech Communication and Technology. - 1997.

[4] Reynolds D. A., Quatieri T. F., Dunn R. B. Speaker verification using adapted Gaussian mixture models //Digital signal processing. - 2000. - T. 10. - №. 1-3. - C. 1941.

[5] Kenny P. et al. A study of interspeaker variability in speaker verification //IEEE Transactions on Audio, Speech, and Language Processing. - 2008. - T. 16. - №. 5. - C. 980-988.

[6] Dehak N. et al. Support vector machines and joint factor analysis for speaker verification //2009 IEEE International Conference on Acoustics, Speech and Signal Processing. - IEEE, 2009. - C. 4237-4240.

[7] [Online]. Available: www.biometrics.gov

[8] Eckert P., Rickford J. R. (ed.). Style and sociolinguistic variation. - Cambridge University Press, 2001.

[9] Hansen J. H. L. Analysis and compensation of speech under stress and noise for environmental robustness in speech recognition //Speech communication. - 1996. - T. 20. - №. 1-2. - C. 151-173.

[10] Fan X., Hansen J. H. L. Speaker identification within whispered speech audio streams //IEEE transactions on audio, speech, and language processing. - 2010. - T. 19. - №. 5. - C. 1408-1421.

[11] Zhang C., Hansen J. H. L. Whisper-island detection based on unsupervised segmentation with entropy-based speech feature processing //IEEE Transactions on Audio, Speech, and Language Processing. - 2010. - T. 19. - №. 4. - C. 883-894.

[12] Hansen J. H. L., Varadarajan V. Analysis and compensation of Lombard speech across noise type and levels with application to in-set/out-of-set speaker recognition //IEEE Transactions on Audio, Speech, and Language Processing. - 2009. - T. 17. - №. 2. - C. 366-378.

[13] Mehrabani M., Hansen J. H. L. Singing speaker clustering based on subspace learning in the GMM mean supervector space //Speech Communication. - 2013. - T. 55. - №. 5. - C. 653-666.

[14] Vloeberghs C. et al. The Impact of Speech Under" Stress" on Military Speech Technology.(l'Impact de la parole en condition de" stress" sur less technologies vocales militaries). - NATO RESEARCH AND TECHNOLOGY ORGANIZATION NEUILLY-SUR-SEINE (FRANCE), 2000.

[15] Reynolds D. A. et al. The effects of telephone transmission degradations on speaker recognition performance //1995 International Conference on Acoustics, Speech, and Signal Processing. - IEEE, 1995. - T. 1. - C. 329-332.

[16] Kenny P. et al. Joint factor analysis versus eigenchannels in speaker recognition //IEEE Transactions on Audio, Speech, and Language Processing. - 2007. - T. 15. - №. 4. - C. 1435-1447.

[17] Auckenthaler R., Carey M., Lloyd-Thomas H. Score normalization for text-independent speaker verification systems //Digital Signal Processing. - 2000. - T. 10. -№. 1-3. - C. 42-54.

[18] Rose R. C., Hofstetter E. M., Reynolds D. A. Integrated models of signal and background with application to speaker identification in noise //IEEE Transactions on Speech and Audio Processing. - 1994. - T. 2. - №. 2. - C. 245-257.

[19] Jin Q., Schultz T., Waibel A. Far-field speaker recognition //IEEE Transactions on Audio, Speech, and Language Processing. - 2007. - T. 15. - №. 7. - C. 2023-2032.

[20] Greenberg C. S. et al. Human Assisted Speaker Recognition In NIST SRE10 //Odyssey. - 2010. - C. 32.

[21] Snyder D. et al. Deep neural network-based speaker embeddings for end-to-end speaker verification //2016 IEEE Spoken Language Technology Workshop (SLT). -IEEE, 2016. - C. 165-170.

[22] Garcia-Romero D., Sell G., McCree A. MagNetO: X-vector Magnitude Estimation Network plus Offset for Improved Speaker Recognition //Odyssey. - 2020. - C. 1-8.

[23] Garcia-Romero D. et al. x-Vector DNN Refinement with Full-Length Recordings for Speaker Recognition //Interspeech. - 2019. - C. 1493-1496.

[24] Landini F. et al. Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: theory, implementation and analysis on standard tasks //Computer Speech & Language. - 2022. - T. 71. - C. 101254.

[25] Villalba J., Zhang Y., Dehak N. x-Vectors Meet Adversarial Attacks: Benchmarking Adversarial Robustness in Speaker Verification //INTERSPEECH. -2020. - C. 4233-4237.

[26] Jung J. et al. Large-scale learning of generalised representations for speaker recognition //arXiv preprint arXiv:2210.10985. - 2022.

[27] Heo H. S. et al. Self-supervised curriculum learning for speaker verification //arXiv preprint arXiv:2203.14525. - 2022.

[28] Gusev A. et al. SdSVC Challenge 2021: Tips and Tricks to Boost the Short-Duration Speaker Verification System Performance //Interspeech. - 2021. - C. 23072311.

[29] Zeinali H. et al. But system description to voxceleb speaker recognition challenge 2019 //arXiv preprint arXiv: 1910.12592. - 2019.

[30] Villalba J. et al. Advances in speaker recognition for telephone and audio-visual data: the JHU-MIT submission for NIST SRE19 //Proceedings of Odyssey. - 2020, pp. 273-280

[31] Kye S. M., Chung J. S., Kim H. Supervised attention for speaker recognition //2021 IEEE Spoken Language Technology Workshop (SLT). - IEEE, 2021. - C. 286-293.

[32] Gusev A. et al. STC-Innovation Speaker Recognition Systems for Far-Field Speaker Verification Challenge 2020 //INTERSPEECH. - 2020. - C. 3466-3470.

[33] Fan Z. et al. Exploring wav2vec 2.0 on speaker verification and language identification //arXiv preprint arXiv:2012.06185. - 2020.

[34] Vaessen N., Van Leeuwen D. A. Fine-tuning wav2vec2 for speaker recognition //ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE, 2022. - C. 7967-7971.

[35] Peng J. et al. An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification //arXiv preprint arXiv:2210.01273. - 2022.

[36] Lee E. P. C. et al. Spectral Clustering-aware Learning of Embeddings for Speaker Diarisation //arXiv preprint arXiv:2210.13576. - 2022.

[37] Novoselov S., Volokhov V., Lavrentyeva G. Universal speaker recognition encoders for different speech segments duration //arXiv preprint arXiv:2210.16231. -2022.

[38] Avdeeva A. et al. STC speaker recognition systems for the NIST SRE 2021 //arXiv preprint arXiv:2111.02298. - 2021.

[39] Novoselov S. et al. Robust Speaker Recognition with Transformers Using wav2vec 2.0 //arXiv preprint arXiv:2203.15095. - 2022.

[40] Tak H. et al. Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation //arXiv preprint arXiv:2202.12233. - 2022.

[41] URL: https://habr.com/ru/news/t/583590/; online web resource.

[42] Wu Z. et al. ASVspoof 2015: the first automatic speaker verification spoofing and countermeasures challenge //Sixteenth annual conference of the international speech communication association. - 2015.

[43] Kinnunen T. et al. Asvspoof 2017: Automatic speaker verification spoofing and countermeasures challenge evaluation plan //Training. - 2017. - T. 10. - №. 1508. - C. 1508.

[44] Todisco M. et al. ASVspoof 2019: Future horizons in spoofed and fake audio detection //arXiv preprint arXiv: 1904.05441. - 2019.

[45] Yamagishi J, Todisco M, Sahidullah M, Delgado H, Wang X, Evans N, Kinnunen T, Lee KA, Vestman V, Nautsch A. Asvspoof 2019: Automatic speaker verification spoofing and countermeasures challenge evaluation plan. ASV Spoof. 2019.

[46] Delgado H. et al. ASVspoof 2021: Automatic speaker verification spoofing and countermeasures challenge evaluation plan //arXiv preprint arXiv:2109.00535. - 2021.

[47] Villalba J. et al. Spoofing detection with DNN and one-class SVM for the ASVspoof 2015 challenge //Sixteenth annual conference of the international speech communication association. - 2015.

[48] Chen N. et al. Robust deep feature for spoofing detection—The SJTU system for ASVspoof 2015 challenge //Sixteenth Annual Conference of the International Speech Communication Association. - 2015.

[49] Novoselov S. et al. STC antispoofing systems for the ASVspoof 2015 challenge //2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE, 2016. - C. 5475-5479.

[50] Lavrentyeva G. et al. Audio replay attack detection with deep learning frameworks //Interspeech. - 2017. - C. 82-86.

[51] Liu X. et al. ASVspoof 2021: Towards Spoofed and Deepfake Speech Detection in the Wild //arXiv preprint arXiv:2210.02437. - 2022.

[52] Tomilov A. et al. STC antispoofing systems for the ASVspoof2021 challenge //Proc. ASVspoof 2021 Workshop. - 2021. - C. 61-67.

[53] Medennikov I. et al. Target-speaker voice activity detection: a novel approach for multi-speaker diarization in a dinner party scenario //arXiv preprint arXiv:2005.07272. - 2020.

[55] Reynolds, D. A. An overview of automatic speaker recognition technology / D. A. Reynolds // 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. — 2002. — T. 4. — C. 4072—4075.

[56] Reynolds, D. A. Gaussian Mixture Models / D. A. Reynolds // Encyclopedia of Biometrics. — 2009.

[57] Kenny, P. Joint Factor Analysis of Speaker and Session Variability : Theory and Algorithms / P. Kenny //. — 2005.

[58] Kenny, P. A Study of Interspeaker Variability in Speaker Verification / P. Kenny, P. Ouellet, N. Dehak, V. Gupta, P. Dumouchel // IEEE Transactions on Audio, Speech, and Language Processing. — 2008. — T. 16. —

C. 980—988.

[59] Dehak, N. Front-End Factor Analysis for Speaker Verification / N. Dehak, P. J. Kenny, R. Dehak, P. Dumouchel, P. Ouellet // Trans. Audio, Speech

and Lang. Proc. — Piscataway, NJ, USA, 2011.

[60] ITU-T Recommendation P.85, 1994, https://www. itu. int/rec/T-REC-P. 85

[61] ITU-T Recommendation P.862, 2001, https://www. itu. int/rec/T-REC-P. 862

[62] ITU-T Recommendation P.863, 2011, https://www.itu.int/rec/T-REC-P.863

[63] ITU-T Recommendation BS.1387, https://www. itu. int/rec/R-REC-B S.1387

[64] ITU-T Rec. P. 56. Objective measurement of active speech level. - 1993. -Approved in Dec. 2011. - Printed in Switzerland, Geneva, 2012. - 17 p.

[65] ITU-T G. 160. Objective measures for the characterization of the basic functioning of noise reduction algorithms. - 2008. - Approved in Nov. 2009. - Printed in Switzerland, Geneva, 2010. - 14 p.

[66] Kim C., Stern R.M. Robust Signal-to-Noise Ratio Estimation Based on Waveform Amplitude Distribution Analysis // Proc. INTERSPEECH-2008. - Brisbane, Australia, 2008. - P. 2598-2601.

[67] https://labrosa.ee.columbia.edu/~dpwe/tmp/nist/doc/stnr.txt; online web resource.

[68] Martin R. Noise power spectral density estimation based on optimal smoothing and minimum statistics //IEEE Transactions on speech and audio processing. - 2001. - T. 9. - №. 5. - C. 504-512.

[69] Nemer E., Goubran R., Mahmoud S. SNR estimation of speech signals using subbands and fourth-order statistics //IEEE Signal Processing Letters. - 1999. - T. 6. -№. 7. - C. 171-174.

[70] Prego T. M. et al. Blind estimators for reverberation time and direct-to-reverberant energy ratio using subband speech decomposition //2015 IEEE workshop on applications of signal processing to audio and acoustics (WASPAA). - IEEE, 2015. - C. 1-5.

[71] Eaton J. et al. Estimation of room acoustic parameters: The ACE challenge //IEEE/ACM Transactions on Audio, Speech, and Language Processing. - 2016. - T. 24. - №. 10. - C. 1681-1693.

[72] Ratnam R. et al. Blind estimation of reverberation time //The Journal of the Acoustical Society of America. - 2003. - T. 114. - №. 5. - C. 2877-2892.

[73] Ratnam R., Jones D. L., O'Brien W. D. Fast algorithms for blind estimation of reverberation time //IEEE Signal Processing Letters. - 2004. - T. 11. - №. 6. - C. 537540.

[74] Lollmann H. W., Vary P. Estimation of the reverberation time in noisy environments //Proc. of Intl. Workshop on Acoustic Echo and Noise Control (IWAENC). - Citeseer, 2008. - C. 1-4.

[75] Lollmann H. et al. An improved algorithm for blind reverberation time estimation //Proceedings of international workshop on acoustic echo and noise control (IWAENC). - 2010. - C. 1-4.

[76] Lebart K., Boucher J. M., Denbigh P. N. A new method based on spectral subtraction for speech dereverberation //Acta Acustica united with Acustica. - 2001. -T. 87. - №. 3. - C. 359-366.

[77] Vesa S., Harma A. Automatic estimation of reverberation time from binaural signals //Proceedings.(ICASSP'05). IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005. - IEEE, 2005. - T. 3. - C. iii/281-iii/284 Vol. 3.

[78] Wen J. Y. C., Habets E. A. P., Naylor P. A. Blind estimation of reverberation time based on the distribution of signal decay rates //2008 IEEE International Conference on Acoustics, Speech and Signal Processing. - IEEE, 2008. - C. 329-332.

[79] Polack J. D. La transmission de l'énergie sonore dans les salles : gnc. - Le Mans, 1988.

[80] Lebart K., Boucher J. M., Denbigh P. N. A new method based on spectral subtraction for speech dereverberation //Acta Acustica united with Acustica. - 2001. -T. 87. - №. 3. - C. 359-366.

[81] Habets E. A. P. Single- and multi-microphone speech dereverberation using spectral enhancement //Dissertation Abstracts International. - 2007. - T. 68. - №. 04.

[82] Fu S. W. et al. Quality-Net: An end-to-end non-intrusive speech quality assessment model based on BLSTM //arXiv preprint arXiv:1808.05344. - 2018.

[83] Fu S. W., Liao C. F., Tsao Y. Learning with learned loss function: Speech

enhancement with quality-net to improve perceptual evaluation of speech quality //IEEE Signal Processing Letters. - 2019. - T. 27. - C. 26-30.

[84] Sharma D. et al. Non-intrusive POLQA estimation of speech quality using recurrent neural networks //2019 27th European Signal Processing Conference (EUSIPCO). - IEEE, 2019. - C. 1-5.

[85] Avila A. R. et al. Non-intrusive speech quality assessment using neural networks //ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE, 2019. - C. 631-635.

[86] ITU-T Recommendation P.563, 2004, https://www.itu.int/rec/T-REC-P.563

[87] Li H. et al. Frame-Level Signal-to-Noise Ratio Estimation Using Deep Learning //INTERSPEECH. - 2020. - C. 4626-4630.

[88] Xia Y., Stern R. M. A Priori SNR Estimation Based on a Recurrent Neural Network for Robust Speech Enhancement //INTERSPEECH. - 2018. - C. 3274-3278.

[89] Lv, S., Hu, Y., Zhang, S., Xie, L. (2021) DCCRN+: Channel-Wise Subband DCCRN with SNR Estimation for Speech Enhancement. Proc. Interspeech 2021, 28162820, doi: 10.21437/Interspeech.2021-1482

[90] Gamper H., Tashev I. J. Blind reverberation time estimation using a convolutional neural network //2018 16th International Workshop on Acoustic Signal Enhancement (IWAENC). - IEEE, 2018. - C. 136-140.

[91] Parada P. P. et al. Evaluating the non-intrusive room acoustics algorithm with the ACE challenge //arXiv preprint arXiv:1510.04616. - 2015.

[92] Povey D. et al. The Kaldi speech recognition toolkit //IEEE 2011 workshop on automatic speech recognition and understanding. - IEEE Signal Processing Society, 2011. - №. CONF.

[93] Nandwana M. K. et al. The voices from a distance challenge 2019 evaluation plan //arXiv preprint arXiv:1902.10828. - 2019.

[94] McLaren M. et al. The speakers in the wild (SITW) speaker recognition database //Interspeech. - 2016. - C. 818-822.

[95] Panayotov V. et al. Librispeech: an asr corpus based on public domain audio books //2015 IEEE international conference on acoustics, speech and signal processing

(ICASSP). - IEEE, 2015. - C. 5206-5210.

[96] Barker J. et al. The fifth'CHiME'speech separation and recognition challenge: dataset, task and baselines //arXiv preprint arXiv:1803.10609. - 2018.

[97] Brummer N., Doddington G. Likelihood-ratio calibration using prior-weighted proper scoring rules //arXiv preprint arXiv: 1307.7981. - 2013.

[98] Garcia-Romero D., Sell G., McCree A. MagNetO: X-vector Magnitude Estimation Network plus Offset for Improved Speaker Recognition //Odyssey. - 2020. - C. 1-8.

[99] Lavrentyeva G. et al. Investigation of Different Calibration Methods for Deep Speaker Embedding based Verification Systems //arXiv preprint arXiv:2203.15106. -2022.

[100] NIST 2002: https://catalog.ldc.upenn.edu/LDC2004S04

[101] NIST 2008: https://catalog.ldc.upenn.edu/LDC2011S08

[102] Font F., Roma G., Serra X. Freesound technical demo //Proceedings of the 21st ACM international conference on Multimedia. - 2013. - C. 411-412.

[103] Snyder D., Chen G., Povey D. Musan: A music, speech, and noise corpus //arXiv preprint arXiv:1510.08484. - 2015.

[104] Allen J. B., Berkley D. A. Image method for efficiently simulating small-room acoustics //The Journal of the Acoustical Society of America. - 1979. - T. 65. - №. 4. -C. 943-950.

[105] Lavrentyeva G., Volkova M., Avdeeva A., Novoselov S., Gorlanov A., Andzukaev T., Ivanov A., Kozlov A. Blind speech signal quality estimation for speaker verification systems // Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH - 2020, pp. 1535-1539

[106] He K. et al. Deep residual learning for image recognition //Proceedings of the IEEE conference on computer vision and pattern recognition. - 2016. - C. 770-778.

[107] Garcia-Romero D., McCree A. Supervised domain adaptation for i-vector based speaker recognition //2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE, 2014. - C. 4047-4051.

[108] Garcia-Romero D. et al. Unsupervised domain adaptation for i-vector speaker recognition //Proceedings of Odyssey: The Speaker and Language Recognition

Workshop. - 2014. - T. 8.

[109] Alam M. J., Bhattacharya G., Kenny P. Speaker verification in mismatched conditions with frustratingly easy domain adaptation //Odyssey. - 2018. - T. 2018. - C. 176-180.

[110] Rohdin J. et al. Speaker verification using end-to-end adversarial language adaptation //ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE, 2019. - C. 6006-6010.

[111] Wang Q. et al. Unsupervised domain adaptation via domain adversarial training for speaker recognition //2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE, 2018. - C. 4889-4893.

[112] Wang X., Li L., Wang D. VAE-based domain adaptation for speaker verification //2019 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). - IEEE, 2019. - C. 535-539.

[113] Nidadavolu P. S. et al. Low-resource domain adaptation for speaker recognition using cycle-gans //2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). - IEEE, 2019. - C. 710-717.

[114] Meng Z. et al. Adversarial speaker verification //ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). -IEEE, 2019. - C. 6216-6220.

Приложение А. Тексты публикаций

STC Antispoofing Systems for the ASVspoof2019 Challenge

Galina Lavrentyeva1,2, Sergey Novoselov2, Andzhukaev Tseren1, Marina Volkova1, Artem

Gorlanov1, Alexandr Kozlov1

'STC-innovations Ltd., St.Petersburg, Russia 2ITMO University, St.Petersburg, Russia www.ifmo.ru www.speechpro.com

{lavrentyeva, novoselov, andzhukaev, volkova, gorlanov, kozlov-a}@speechpro.com

ON

O

<N

5h

&

<

Q

CO CJ

>

r-10 to

o

^

o

ON

X

H

cd

Abstract

This paper describes the Speech Technology Center (STC) antispoofing systems submitted to the ASVspoof 2019 challenge '. The ASVspoof2019 is the extended version of the previous challenges and includes 2 evaluation conditions: logical access use-case scenario with speech synthesis and voice conversion attack types and physical access use-case scenario with replay attacks. During the challenge we developed anti-spoofing solutions for both scenarios. The proposed systems are implemented using deep learning approach and tire based on different types of acoustic features. We enhanced Light CNN architecture previously considered by the authors for replay attacks detection and which performed high spoofing detection quality during the ASVspoof2017 challenge. In particular here we investigate the efficiency of angular margin based softmax activation for training robust deep Light CNN classifier to solve the mentioned-above tasks. Submitted systems achieved EER of 1.86% in logical access scenario and 0.54% in physical access scenario on the evaluation part of the Challenge corpora. High performance obtained for the unknown types of spoofing attacks demonstrates the stability of the offered approach in both evaluation conditions.

Index Terms: spoofing, anti-spoofing, speaker recognition, replay attack, speech synthesis, voice conversion, ASVspoof20i9

1. Introduction

Over the past few years, voice biometric technologies have reached impressive performance, which can be confirmed by the results of the NIST Speaker Recognition Evaluation (SRE) Challenges [1]. Automatic Speaker Verification (ASV) systems are already used in security systems of socially significant institutions, ill immigration control, forensic laboratories and for identity verification in Internet banking, and other electronic commerce systems.

Alongside the increasing performance and increasing confidence in speaker recognition methods, the privacy level of the information with the necessity to protect it also increases. This leads to higher requirements for the reliability of the biometric systems including their robustness against malicious attacks. Active fraudster attempts to falsify voice characteristics in order to gain unauthorised access referred to as spoofing attacks or presentation attacks (ISO/IEC 30107-1) are the biggest threat for voice biometric systems. The widespread use of ASV systems and new approaches in machine learning has forced the significant quality improvement of these attacks. Many studies

This work was partially financially supported by the Government of the Russian Federation (Grant 08-08).

show that despite the high performance of the state-of-the-arr ASV systems they are still vulnerable and the need in reliable spoofing detection methods for ASV systems is apparent.

Automatic Speaker Verification Spoofing and Countermea-sures initiative (ASVspoof) has attracted the high interest of the research community to the task of unforeseen spoofing trials detection. It has significantly pushed forward the development of spoofing detection methods by organizing ASVspoof Challenges in 2015 and 2017, that were aimed to develop counter-measures to detect speech synthesis with voice conversion attacks and replay attacks, respectively.

In 2019, the competition was held for the third time and was the extended version of the previous ones [21. The task was to design the generalised countermeasures in 2 evaluation conditions: logical access use-case scenario with speech synthesis and voice conversion attack types and physical access use-case scenario with replay attacks.

For both scenarios, wc proposed several systems based on the enhanced Light CNN architecture, considered by the authors for replay attacks detection in [3j and outperformed other proposed systems during ASVspoof2017 challenge. The proposed systems are based on different types of acoustic features.

This paper explores angular margin based softmax and batch normalization techniques for anti-spoofing systems quality improvements.

Section 2 describes the proposed modifications of the original LCNN-system for spoofing detection from [3] in details. Section 3.3 contains the overview of all proposed single and submitted systems, while in section ?? the results obtained for these systems on the development and evaluation parts are presented and analysed.

It is worth mentioning that according to the evaluation plan all data used for training and evaluation was modelled using acoustic replay simulation. On the one hand, this helps to carefully control acoustic and replay configurations, but on the other hand, results raise some doubts about the usability of the considered systems for real-case scenarios. According to our experiments performed for spoofing attacks in real and emulated telephone channel [4] systems trained for emulated conditions cannot detect spoofing attacks in real cases.

2. LCNN system modifications

All of the proposed systems for both scenarios were based on the enhanced Light CNN architecture previously used for replay attack detection [3]. The specific characteristic of Light CNN architecture [5] is the usage of the Max-Feature-Map activation (MFM) which is based on Max-Out activation function

[?]. Neural network with MFM is capable to choosing features which are essential for task solving. According to impressive results obtained by the authors ill [3] for replay attacks, such type of networks can be successfully implemented for anti-spoofing.

2.1. Fronl-End

We explored several types of acoustic features as input for LCNN, all of them were used ill a l aw format.

Our experience in spoofing detection confirms that power spectrum contains useful information related to the speech signal and artifacts specific to different spoofing attacks and can be used as informative time-frequency representation for spoofing detection task. We used raw log power magnitude spectrum computed from the signal as features. For this purpose, the spectrum was extracted via:

• constant Q transform (CQT) [61

• Fast Fourier Transform (FFT)

• Discrete Cosine Transform (DCT)

Additionally, we considered cepstral coefficients from baseline systems, proposed by the organisers of the ASVspoof20l9: Linear Frequency Cepstral Coefficients (LFCC) [7] obtained by the use of triangular filters in linear space for local integration of the power spectrum and Constant Q Cepstral Coefficients based on the geometrically spaced filters [6] .We explored efficiency of using simple enegry based Speech Activity Detector (SAD) for solving spoofing detection task for both PA and LA attack types.

2.2. LCNN classifier

In contrast to our LCNN system presented in [3] for replay attacks detection, the proposed systems are used not as high-level features extractor, followed by GMM scoring model. Instead of that LCNN was used here for final score estimation based on the low-level acoustic features.

Additional steps of batch normalization were also used after MaxPooling layers to increase stability and convergence speed during the training process. The detailed architecture is described in Table 1.

2.3. Angular margin based softmax activation

The key difference of the novel LCNN system is angular margin based softmax loss (A-softmax) used for training the described architecture. A-softmax was introduced in [8] and demonstrated an elegant way to obtain well-regularized loss function by forcing learned features to be discriminative on a hypersphere manifold. Thus angular margin softmax loss can be described as:

Table 1: LCNN architecture

dr — '

■ ~ log

s :>ñ. Vi)

(1)

where N is the number of training samples {a;»}£Li and their labels {yi}fLi, &i,Vi is the angle between Xi and the corresponding column yi of the fully connected classification layer weights W, and m is an integer that controls the size of an angular margin between classes.

This approach has already used in [9] for high-level speaker embedding extractor. The learned features are constrained to a unit hypersphere. Such regularization technique also addresses

Type Filter /Stride Output Params

Conv.l 5x5/1x1 863 x 600 x 64 I.6K

MFMJ2 - 864 x 600 x 32 -

MaxPool_3 2x2/2x2 431 x 300 x 32 -

Conv_4 1x1/1x 1 431 x 300 x 64 2. IK

MFM.5 - 431 x 300 x 32 -

BatchNorm_6 - 431 X 300 X 32 -

Conv.7 3x3/1x1 431 x 300 x 96 27.7K

MFM_8 - 431 x 300 x 48 -

MaxPooL9 2x2/2x2 215 x 150 x 48 _

BatchNormJO - 215 x 150 x 48 -

Conv.l 1 Ixl/lxl 215 x 150 x 96 4.7K

MFM.12 - 215 x 150 x 48 -

BatchNorm-13 - 215 x 150 x 48 -

Conv_14 3x3/1x1 215 x 150 x 128 55.4K

MFMJ5 - 215 x 150 x 64 -

MaxPool_16 2x2/2x2 107 x 75 x 64 -

Conv.l 7 1 X 1/lxl 107 x 75 X 128 8.3K

MFM.18 - 107 X 75 X 64 -

BiitchNoim_]9 - 107 X 75 X 64 -

Conv_20 3 x 3/lxl 107 X 75 X 64 36.9K

MFMJ21 - 107 X 75 X 32 -

BatchNorm_22 - 107 X 75 X 32 -

Conv.23 1 X 1/lxl 107 X 75 X 64 2.1K

MFM.24 - 107 X 75 X 32 -

BatchNorm_25 - 107 X 75 X 32 -

ConvJ26 3 x 3/lxl 107 X 75 X 64 18.5K

MFM_27 - 107 X 75 X 32 -

MaxPool_28 2 x 2/2 x2 53 x 37 x 32 -

FCJ29 160 10.2 MM

MFM_30 80 -

BatchNorm_31 - 80 -

FCJ32 2 64

Total - 37 IK

the problem of overfitting by separating classes in cosine similarity metric.

We use A-softmax as an effective discriminative objective for training our model.

LCNN weights were initialized using normal Kaiming initialization. And dropout 0.75 was used to reduce overfitting.

3. Experimental setup

3.1. Datasets

All experiments presented further were conducted on ASVspoof 2019 datasets. The detailed description of these datasets can be found in [2]. To train all the systems we used only the train part. The dev part was used for performance validation and weights adjustment for system fusion. The evaluation part includes a set of unseen genuine verification trials and spoofing attacks, generated widi unknown spoofing algorithms and replay configurations which differ from those in the train and development parts.

3.2. Details of systems implementation

We prepared several single systems for each scenario, based on the features described above and LCNN architecture from 1.

Figure 3: Performance of the primary PA system pooled by PA spoofing attack types from the evaluation set. Da relates to distance to a talker at which the replay attack is recorded, Q reletes to loudspeaker quality, S. 11. I)., relates to I room size, reverberation and talker to ASv system distance)

Table 2: Performance of baseline systems and their modifications

LA PA

System EER niin-tDCF EER min-lDCF

LFCC-GMM 3.029 0,07 8 J 1.226 0.24]

LFCC-CMVN-GMM 6.000 0.153 16.686 0.345

LFCC-VAD-GMM 7.181 0.185 15.503 0.337

CQCC-GMM 0.473 0.014 10.072 0.194

CQCC-CMVN-GMM 3.095 0.086 13.000 0.267

CQCC-VAD-GMM 3.571 0.108 ¡0.144 0.204

lar margin based softmax loss as classifier layer for spoofing detection system training allows to improve system quality and stabilize training process (see Figure 2) for both LA and PA scenarios.

Experiments, conducted on the development part of ASVspoof2019 corpora, confirm that batch normalization and angular margin based softmax activation improve the performance of the original LCNN system for different types of low-level acoustic features in both scenarios (Figure 2).

Table 3 and Table 4 present the performance of all single systems proposed for LA and PA respectively. High performance obtained for the unknown types of spoofing attacks performed on the evaluation part of ASVspoof20I9 corpora demonstrates the stability of the offered approach in both evaluation conditions.

Figure 4: Performance of the primary LA system pooled by LA spoofing attack types from the evaluation set

Detailed analysis of our LA final system quality for different types of logical attacks, that are presented in Figure 4 demonstrates that it degrades in case of some unknown types of spoofing attacks (A10-AI5, A17-AI8) [2]. The most difficult spoofing attack to detect for our system was A17 (voice conversion with waveform filtering) task for our system.

Figure 3 illustrates rhe analysis of PA detection performance depended on the replay attack configuration: replay device quality, distances to the talker and to ASV system and reverberation characteristics. It can be concluded that replay attack detection performance depends on the replay attacks quality. The most high-quality attacks replay sessions recorded at a small distance to talker with the use of high-quality loudspeaker.

Table 3: Results for submitted LA systems

dev eval

System min-tDCF EER min-tDCF EER

LFCC-LCNN 0.0043 0.157 0.1000 5.06

LFCC-CMVN-LCNN 0.0370 1.174 0.1827 7.86

CQT-LCNN 0.0000 0.000 - -

FFT-LCNN 0.0009 0.040 0.1028 4.53

base Line_LFCC 2.7060 0.069 0.2120 8.09

Fusion 0.0000 0.000 0.051» 1.84

Table 4: Results for submitted PA systems

dev eval

System min-tDCF EER min-tDCF EER

CQT-LCNN 0.0197 0.800 0.0295 1.23

LFCC-LCNN 0.0320 1.311 0.1053 4.60

DCT-LCNN 0.0732 3.850 0.560 2 06

Fusion 0.0001 0.0154 0.0122 0.54

5. Conclusion

This paper describes STC systems submitted to the ASVspoof2019 Challenge for LA and PA evaluation conditions. The main difference from the previous ASVspoof challenges is that all data used for training and evaluation was modelled using acoustic replay simulation, til our opinion, this deals with some restrictions from the practical point of view. According to the results obtained on the evaluation part of ASVspoof20l9 corpora, the proposed LCNN based systems perform well in both PA and LA cases. Submitted systems achieved EER of 1.86% in LA scenario and 0.54% in PA scenario for unknown types of attacks.

6. References

[1] NIST speaker recognition evaluation 2018. [Online], Available: https://www.nist.gov/itl/iad/mig/ nist-20 L 8-speaker-recognition-evaluation

[2] ASVspoof 2019: Automatic speaker verification spoofing and countermeasures challenge evaluation plan. [Online]. Available: http://www.asvspoof.org/asvspoof2019/ as vspoof2019_evaluation\_plan.pdf

[3] G. Lavrentyeva, S. Novoselov, E. Malykh, A. Kozlov, O, Kudashev, and V. Shchemelinin, "Audio replay attack detection with deep learning frameworks," in Proc. Interspeech 2017, 2017, pp. 82-86. [Online]. Available: http://dx.doi.org/10.21437/Interspeech.2017-360

[4] G, Lavrentyeva, S. Novoselov, M. Volkova, Y. Matveev, and M. De Marsico, "Phonespoof: A new dataset for spoofing attack detection in telephone channel," in Proc. ICASSP 2018 (to be published), 2018.

[5] X. Wu, R. He, and Z. Sun, "A lightened CNN for deep face representation," CoRR, vol. abs/1511.02683, 2015. [Online]. Available: http://arxiv.org/abs/1511.02683

[6] M. Todisco, H. Delgado, and N. W. D. Evans, "A new feature for automatic speaker verification anti-spoofing: Constant q cepstral coefficients," in Odyssey, 2016.

[7] M. Sahidullah, T. Kinnunen, and C. Hanili, "A comparison of features for synthetic speech detection," 09 2015.

[8] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song, "Sphereface: Deep hypersphere embedding for face recognition," in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 1,2017.

[9] S. Novoselov, A. Shulipa, I. Kremnev, A. Kozlov, and V. Shchemelinin, "On deep speaker embeddings for text-independent speaker recognition," 06 2018, pp. 378-385.

[10] Z. Wu, T. Kinnunen, N. W. D. Evans, J. Yamagishi, C. Hanili, M. Sahidullah, and A. Sizov, "Asvspoof 2015: the first automatic speaker verification spoofing and countermeasures challenge," in INTERSPEECH, 2015.

[11] T. Kinnunen, M. Sahidullah, H. Delgado, M. Todisco, N. W. D. Evans, J. Yamagishi, and K.-A. Lee, "The asvspoof 2017 challenge: Assessing the limits of replay spoofing attack detection," in INTERSPEECH, 2017.

[12] H, Delgado, M. Todisco, M. Sahidullah, N. W. D. Evans, T. Kinnunen, K. A. Lee, and J. Yamagishi, "Asvspoof 2017 version 2.0: meta data analysis and baseline enhancements," 2018.

Deep Speaker Embeddings for Far-Field Speaker Recognition on Short

Utterances

Aleksei Gusev1'2, Vladimir Volokhov2, Tseren Andzhukaev2, Sergey Novoselov1'2, Galina Lavrentyeva1'2, Marina Volkova1'2, Alice Gazizullina12, Audrey Shulipa1, Artem Gorlanov2, Anastasia Avdeeva2, Artem Ivanov2, Alexander Kozlov2, Timur Pekhovsky2, Yuri Matveev1,2

ITMO University, St. Petersburg, Russia 2STC-inn ovations Ltd., St. Petersburg, Russia

{gusev-a, volokhov,andzhukaev,novoselov,lavrentyeva,volkova,gazizullina, shulipa,gorlanov,avdeeva-a,ivanov-ar,kozlov-a,tim,matveev}@ speechpro.com

o

<N O <N o

Ph

Q

CO

CJ

> m

CO

o

VO

o

<N

o o

<N

X

h

cd

Abstract

Speaker recognition systems based on deep speaker embeddings have achieved significant performance in controlled conditions according to the results obtained for early NIST SRE (Speaker Recognition Evaluation) datasets. From the practical point of view, taking into account the increased interest in virtual assistants (such as Amazon Alexa, Google Home, Apple Siri, etc.), speaker verification on short utterances in uncontrolled noisy environment conditions is one of the most challenging and highly demanded tasks. This paper presents approaches aimed to achieve two goals: a) improve the quality of far-field speaker verification systems in the presence of environmental noise, reverberation and b) reduce the system quality degradation for short utterances. For these purposes, we considered deep neural network architectures based on TDNN (Time Delay Neural Network) and ResNet (Residual Neural Network) blocks. We experimented with state-of-the-art embedding extractors and their training procedures. Obtained results confirm that ResNet architectures outperform the standard x-vector approach in terms of speaker verification quality for both long-duration and short-duration utterances. We also investigate the impact of speech activity detector, different scoring models, adaptation and score normalization techniques. The experimental results are presented for publicly available data and verification protocols for the VoxCelebl, VoxCeleb2, and VOiCES datasets.

1. Introduction

The increasing interest in reliable means of guarding and restricting access to informational resources requires the development of new authentication methods. Biometric recognition remains one of the priority research areas in this field.

Today Automatic Speaker Verification (ASV) systems are a subject of increased interest of both state law enforcement agencies and commercial structures due to their reliability, convenience, low cost and provided security. Moreover, such systems can operate on different input-output devices and communication channels (landline, mobile telephone networks, IP telephony, etc.).

The latest results obtained for the telephone part of NIST SRE (National Institute of Standards and Technology Speaker Recognition Evaluation) datasets demonstrated that Speaker Recognition (SR) systems based on deep speaker embeddings

had achieved significant results in controlled conditions [1]. However, speaker verification on short utterances is still one of the more challenging tasks in the text-independent speaker recognition field.

Taking into account the increased interest in virtual assistants (such as Amazon Alexa, Google Home, Apple Siri, etc.). the demand for far-held speaker verification on short utterances (such as wake-up words and short commands) in uncontrolled noisy environment conditions is very high.

Such factors as channel mismatch, environmental noise and room reverberation can dramatically decrease the quality of these systems. This was confirmed by the VOiCES from a Distance challenge 2019 (VOiCES 2019 challenge) [2, 3] aimed to support research in the area of speaker recognition and automatic speech recognition with the special focus on single channel far-field audio under noisy conditions.

This paper presents approaches aimed to achieve two goals simultaneously: to improve the performance of far-field speaker verification systems in the presence of environmental noise and reverberation, and to reduce the system quality degradation for short utterances. In order to achieve these goals, we consider state-of-the-art deep neural network architectures and its applicability for speaker verification task in uncontrolled environmental conditions on publicly available data and verification protocols for the VoxCeleb 1, VoxCeleb2, and VOiCES datasets.

We experimented with deep speaker embedding extractors based on TDNN (Time Delay Neural Network) [4] and ResNet (Residual Neural Network) [1,5] blocks and different training objectives. A detailed description of the extractors is presented in Section 4. Special attention was paid to the impact of deep neural network speech activity detector presented in 3.2 that is more robust against noise and other distortions compared to classical energy-based methods. In this paper, we also analyzed different scoring models, adaptation and score normalization techniques and estimated their contribution to the final system performance.

All obtained experimental results and their comparison with the standard x-vector approach are considered in Section 5. The proposed systems performance is presented in terms of EER (Equal Error Rate) and minDCF (Minimum Detection Cost Function).

2. Related work

Implementation of deep learning approaches for speaker representation undoubtedly lets the speaker recognition field reach new levels of its evolution. Latest trends in the deep learning area applied to the speaker recognition problem form new state-of-the-art SR systems.

2.1, DNN speaker embeddings

Deep neural network based speaker embedding extractors substantially improve tile performance of speaker ID systems in challenging conditions. TDNN based x-vector system significantly outperformed conventional i-vector based system in terms of speaker recognition performance and hence became new baseline for text-independent SR task [4]. The authors proposed an end-to-end system that learns to classify speakers and produce representative deep speaker embeddings able to generalize well to speakers that have not been seen in the training data. The key feature of the proposed architecture was a statistics pooling layer designed to accumulate speaker information from the whole speech segment into one — x-vector. Extracted from an intermediate layer of the neural network which comes after the statistics pooling layer, x-vectors demonstrate properties similar to those of i-vectors from total variability space, which makes it possible to effectively use them in the standard Linear Discriminant Analysis (LDA) followed by Probabilistic Linear Discriminant Analysis (PLDA) [6] backend.

Studies such as [7, 81 follow this deep speaker representation direction with improvement of SR performance. For example, the system from [71 proposed by JHU team for NIST SRE 2018 used the extended version of TDNN based architecture -E-TDNN. The differences include an additional TDNN layer with wider temporal context and unit context TDNN layers between wide context TDNN layers.

Paper [8] proposes to use an alternative training objective -A-Softmax (Angular Margin Softmax) activation [9J - instead of the standard Softmax to train a so called c-vector based system. The main characteristics of the proposed architecture were residual blocks [10] built using TDNN architecture and MFM (Max-Feature-Map) activations [II] used instead of ReLU.

2.2. Speaker embeddings for short utterances

Short utterances and far-field microphones are new challenging conditions for the SR task. Recent papers [12, 13] devoted to this problem demonstrate that substantial improvements can be achieved by deeper architectures such as residual networks [10] and by more accurate task-oriented augmentation of training data.

An analysis of the degradation of speaker verification quality at short intervals on the VoxCelebl dataset was canried out in [12, 13]. Authors of [12] demonstrated impressive results for "in the wild" scenario. They proposed a modified residual network with a NetVLAD/GhostVLAD layer for feature aggregation along the temporal axis. This layer is aimed to apply self-attentive mechanism with learnable dictionary encoding [14].

An alternative approach for feature aggregation over time in a residual network is discussed in [13]. The authors proposed a simple and elegant Time-Distributed Voting (TDV) method. It demonstrates significant quality improvement for short utterances in comparison with NetVLAD solution. However, it does not perform so well on longer duration utterances.

2.3. Speaker embeddings for distant speaker recognition

Recent progress and growing popularity of virtual assistants in smart home systems and smart devices have led to higher requirements not only for speech recognition but for the reliability of the biometric systems under far-field conditions as well. In 2019 the VOiCES from a Distance Challenge [3] was organised to support the research in the area of speaker recognition and automatic speech recognition with the special focus on single channel distant/far-field audio under noisy conditions. The challenge was based on the freely-available Voices Obscured in Complex Environmental Settings (VOiCES) corpus [2] released several months before. Almost all systems proposed during the challenge exploited different architectures of neural networks to obtain deep speaker representations. To reduce tile effects of room reverberation and various kinds of distortions, some researches use more accurate task-oriented data augmentation [15. 16, 17, 18] and speech enhancement methods [16] based on single-channel weighted prediction error (WPE) ]19].

2.4. Loss function for speaker embedding learning

Over the past few years, in the face recognition field, many loss functions have been proposed for tire effective training of embedding extractors: A-Softmax [9], AM-Softmax (Additive Margin Softmax) [20], AAM-Softmax (Additive Angular Margin Softmax) [21], D-Softmax (Dissected Softmax) [22] based loss functions. Recent studies in speaker verification field demonstrated impressive performance of the AM-Softmax based training loss function for speaker ID systems [1, 5]. Thus in this work, we mainly focused on the well-performing AM-Softmax based loss function and additionally experimented with D-softmax loss.

AM-Softmax based loss function is defined as follows:

1 ~ e»(«°'(«vJ-™)

~ ~ Jv ¿r* Xa°sKi)-m) + v (1)

where cos(6w) = w^ft/(||w„. || ||f,||), wVi is the weight vector of class yt. and f. is the input to rhe layer i. Parameter s is an adjustable scale factor and m is the penalty margin. AM-Softmax loss allows to compare speaker embeddings by cosine distance.

D-Softmax based loss is a new loss function that was presented recently in [22] as an effective objective for face embedding learning. Authors of [22[ speculate that the intra- and inter-class objectives in the categorical cross entropy loss are entangled, therefore a well-optimized inter-class objective leads to relaxation on the intra-class objective, and vice versa. The main idea of D-Softmax based loss is to dissect the cross entropy loss into independent intra- and inter-class objective.

D-Softmax based loss function is defined as follows:

£ — £intra "1 Winter —

^ / ^K) 1 \ (2)

N 2-. + E + J + escos(9i) J '

where e and s are customizable parameters.

3. Description of the system components

3.1. Feature extraction

For all our embedding extractors we used MFCC (MeJ Frequency Cepstral Coefficients) and MFB (Log Mel-filter Bank Energies) from 16 kHz raw input signals (standard Kaldi recipe) as low-level features:

• 40 dimensional MFCC extracted from the raw signal with 25ms frame-length and i5ms overlap;

• 80 dimensional MFB extracted from the raw signal with 25ms frame-length and 15ms overlap.

For extracted voice features we applied 2 different postprocessing techniques depending on the type of embedding extractor used afterwards:

• local CMN-normalization (Cepstral Mean Normalization) over a 3-second sliding window;

• local CMN-normalization over a 3-second sliding window and global CMVN-normalization (Cepstral Mean and Variance Normalization) over the whole utterance.

For our neural network based VAD solution we used MFCC features extracted from signal downsampled to 8 kHz. The detailed description is presented below.

3.2. Voice activity detection

Besides energy-based VAD (Voice Activity Detector) from Kaldi Toolkit and ASR based VAD [23] in this work we investigated our new neural network based VAD.

This work adapts the U-net [24] architecture to the task of speech activity detection. Such architecture was originally introduced in biomedical imaging for semantic segmentation in order to improve precision and localization of microscopic images. It builds upon the fully convolutional network and is similar to the deconvolutional network In a deconvolutional network. a stack of convolutional layers - where each layer halves the size of the image but doubles the number of channels - encodes the image into a small and deep representation. That encoding is then decoded to the original size of the image by a stack of upsampling layers.

Our U-net based VAD is built on a modified and reduced version of the original architecture. Figure 1 schematically outlines the proposed version of neural network. It takes 8kHz 23-dimensional MFCC as input features. Our VAD solution works with a half overlapping 2.56 sec sliding window and a 1.28sec overlap. It should be noted that each MFCC vector is extracted for 25ms frame every 20ms. This results in 128 x 23 input features size for the neural network.

The goal of the neural network is to predict the 128 dimensional speech activity mask for every 2.56sec speech segment. Thus the resolution of the proposed speech detector is equal to 20ms. The final decoder layer is a sigmoid activated global average pooling layer. Its output is used as the speech activity mask.

The U-net is trained on artificially augmented data with speech labels obtained from the oracle handmade segmentation or using oracle ASR based VAD processing of clean version of the data.

To train the network, we used a combination of binary cross entropy loss function and dice loss [25J. The latter aims to maximize the dice coefficient between predicted binary segmentation set pi £ P and ground truth binary labels set g% <z G:

V ■■

o V^JV

where the sums run over the N frames.

(3)

Deconv2D, LeakyRekj

Figure 1: U-net based VAD architecture

3.3. Embedding extractors

We considered deep speaker embedding extractor with the most popular residual network architecture named ResNet34 and a deeper ResNet50 network [10].

Table 1 describes ResNet34 architecture we used. The key block of ResNet34 is ResNetBlock. It consists of two convolutional layers with 3x3 filters. ReLU activation follows each convolutional layer, and Maxout activation is used for embedding extraction. We apply batch normalization technique to stabilize and speed up network convergence. The settings for ResNet34 embedding extractors training were borrowed from

[5].

More complex ResNet50 architecture contains three convolutional layers in ResNetBlock with 1x1,3x3, and lxl masks. Additionally, we used SE (Squeeze-and-Excitation) blocks [26] in each ResNetBlock.

3.4. Backcnd

In this work, we used Cosine Similarity (CS) and Cosine Similarity Metric Learning (CSML) for scoring. Additionally, adaptation and score normalization were applied.

3.4.1. CS and CSML

We used CS to distinguish speaker embeddings:

<S(xj,x2) =

MUM'

(4)

Table 1: Embedding extractor based on ResNet34 architecture configuration.

layer name structure output

Input 80 MFB log-energy 80 X 200 x 1

Conv2D-l 3x3 stride 1 80 x 200 X 32

ResNetBlock-1 3 X 3,32 3 x 3,32 x 3, stride 1 80 x 200 X 32

ResNetBlock-2 3 X 3,64 3 x 3,64 x 4, stride 2 40 x 100 X 64

ResNetBlock-3 3 x 3,128 3x3,128 x 6, stride 2 20 x 50 x 128

ResNetBlock-4 3x3, 256 3x3, 256 X 3, stride 2 10 x 25 x 256

StatsPooling mean and std 20 x 256

Flatten - 5120

Dense 1 embedding layer 512

Dense2 output layer NSpk

where (xi, X2) are speaker embedding vectors.

As an alternative scoring model CSML approach was used for speaker verification. According to the original idea a linear transformation A was learned to compute cosine distance for a pair (xi, X2) as follows:

¿>(Xi, X2, A) ^

(Axi) {Ax2) IIAxJIIAX^'

(5)

where the transformation matrix A is upper triangular. However, unlike [27] the triplet loss objective function was used for A training. The metric learning was performed similar to the way it was done in [28] using TensorFlow framework.

3.4.2. Domain adaption

In this work, we used simple domain adaptation procedure [29] based on centering on in-domain set (mean speaker embedding subtraction). The mean vector is calculated using adaptation set in this case.

3.4.3. Score normalization

Additionally, scoring systems normalization technique from [30] was used. For a pair (xi,x2) the normalized score can be estimated as follows:

S(xi,x2) =

S(x l.x2)

Oi

mi , 5(xi.x2) -

<T2

(6)

where the mean fti and standard deviation ai are calculated by matching xi against impostor cohort and similarly for ¡i.j and ¿72. A set of the n best scoring impostors were selected for each embedding pair when means and standard deviations are calculated.

4, Implementation details

Here we describe speaker recognition systems and datasets used for their training.

4.1. Datasets

In our experiment, we used three groups of training data:

• TrainData-I includes VoxCelebl [31] (without test data), VoxCeleb2 [32] and SITW [33] and their augmented versions. Augmentation was partiidly performed using standard Kaldi augmentation recipe (babble, music and noise) using the freely available MUSAN datasets1. Reverberation was performed using the impulse response generator based on [34]. Four different RIRs were generated for each of 40,000 rooms with a varying position of sources and destructors. It should be noted that, in contrast to rhe original Kaldi augmentation, we reverberated both speech and noise signals. In this case different RIRs generated for one room were used for speech and noise signals respectively. Thus we obtained more realistic data augmentation. We have already used this approach in our previous studies [15]. Energy-based VAD from Kaldi Toolkit was used to preprocess all samples from the database. The final database consists of approximately 5,200,000 samples (7,562 speakers);

• TrainData-II contains VoxCeleb 1 Cat (without test data) and VoxCeleb2Cat (without test data) and their augmented versions. We concatenated all segments from the same session into one file. Augmented data was generated using standard Kaldi augmentation recipe (reverberation, babble, music and noise) using the freely available MUSAN and RIR datasets21. Energy-based VAD from Kaldi Toolkit was used to preprocess all samples front the database. The finaf database consists of approximately 830,000 samples (7,146 speakers);

• TVainData-III is similar to TrainData-I, but ASR based VAD [23] was used to preprocess the examples from the database instead of the energy-based VAD;

• IVainData-IV is similar to TrainData-II, but it contains only VoxCeleb2Cat (without test data) and its augmented version. The final database consists of approximately 727,800 samples (5,994 speakers).

4.2. Extractors

ResNet34-MFB80-AM-TtainData-I: This system is based on ResNet34 embedding extractor.The key feature of this extractor is high dimensional input features (80 dimensional MFB).Local CMN- and global CMVN-normalization are used to normalize extracted MFB features. This extractor was trained on short segments with the fixed 2 sec length and using AM-Softmax based loss. Parameters m and s were respectively equal to 0.2 and 30 during the whole training stage. The learning rate was equal to 0.001 on the first two epochs, then it was decreased by a factor of 10 for each next epoch. TrainData-I was used for training. We trained this extractor for 4 epoch.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.