Разработка и исследование метода и алгоритмов прецедентной идентификации отрезков речевых сигналов по заданному словному сегменту тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Бабаринов Сергей Леонидович
- Специальность ВАК РФ05.13.17
- Количество страниц 197
Оглавление диссертации кандидат наук Бабаринов Сергей Леонидович
Введение
Глава 1 Методы и алгоритмы анализа отрезков речевых сигналов
1.1 Основные модели генерации и восприятия речевых сигналов
1.1.1 Модель генерации РС на основе частотных представлений
1.1.2 Частотный анализ Фурье дискретных сигналов
1.1.3 Уравнение свертки как модель речеообразования
1.1.4 Модель генерации РС на основе линейного предсказания
1.1.5 Психоакустика в задачах прецедентной идентификации
1.2 Признаковые пространства и меры близости в задачах прецедентной идентификации отрезков речевых сигналов
1.2.1 Пространства признаков в задачах идентификации отрезков РС
1.2.2 Меры близости сравниваемых отрезков РС
1.3 Задачи исследования
Глава 2 Теоретические основы прецедентной идентификации отрезков речевых сигналов на основе модели психоакустики
2.1 Феноменологическая математическая модель психоакустических явлений
2.1.1 Эмпирические основы математического моделирования
2.1.2 Эксперименты по возбуждению базилярной мембраны гармоническими воздействиями
2.1.3 Нелинейная зависимость ощущения высоты звука от частоты гармонического воздействия
2.1.4 Явление маскировки гармонических акустических воздействий (маскировка гармоническим фоном, маскировка шумом)
2.1.5 Линии ощущений равной громкости при гармонических акустических воздействиях
2.1.6 Основные требования к модели частотных характеристик поперечных волокон базилярной мембраны
2.2 Воспроизведение психоакустических явлений
2.2.1 Воспроизведение амплитудно-частотных характеристик
2.2.2 Воспроизведение кривых маскировки
2.2.3 Воспроизведение шкалы восприятия высоты тона
2.3 Признаковое пространство и мера идентичности в задачах прецедентной идентификации отрезков речевых сигналов
2.3.1 Моделирование импульсных характеристик психоакустических фильтров
2.3.2 Психоакустические признаки и их свойства
2.3.3 Мера идентичности откликов психоакустических фильтров как основа прецедентной идентификации
2.4 Основные результаты и выводы главы
Глава 3 Обработка речевых сигналов в задачах прецедентной идентификации
3.1 Разработка процедуры прецедентной идентификации отрезков речевых сигналов
3.1.1 Концептуальные основы прецедентной идентификации РС
3.1.2 Процедура прецедентной идентификации отрезков РС
3.2 Исследование меры идентичности звуковых сегментов
3.3 Разработка интегральной меры идентичности при сравнении отрезков РС со словным отрезком-прецедентом
3.4. Методика обучения при определении критических областей решающих функций
3.5 Основные результаты и выводы главы
Глава 4 Разработка прототипа программной реализации информационной технологии словной прецедентной идентификации отрезков РС
4.1 Архитектура прототипа программной реализации ИТ словной прецедентной идентификации отрезков РС
4.2 Интерфейс прототипа программной реализации ИТ словной прецедентной идентификации отрезков РС
4.3 Проверка работоспособности прототипа программной реализации ИТ словной прецедентной идентификации отрезков РС
4.4 Основные результаты и выводы главы
Заключение
Список использованных источников
Приложение А
Приложение Б
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Сжатие речевых данных на основе субполосного анализа и синтеза речевых сигналов в области определения их косинус-преобразования2021 год, кандидат наук Трубицына Диана Игоревна
Разработка и исследование метода и алгоритмов прецедентной идентификации фрагментов сканированного рукописного текста2019 год, кандидат наук Ефимов Никита Олегович
Разработка и исследование субполосного метода и алгоритмов скрытного внедрения контрольной информации в отрезки речевых сигналов2018 год, кандидат наук Лихолоб Петр Георгиевич
Разработка математических моделей и алгоритмов анализа и синтеза звуковых сигналов в цифровых слуховых аппаратах2009 год, кандидат технических наук Белов, Александр Сергеевич
Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов2013 год, кандидат технических наук Фирсова, Александра Александровна
Введение диссертации (часть автореферата) на тему «Разработка и исследование метода и алгоритмов прецедентной идентификации отрезков речевых сигналов по заданному словному сегменту»
ВВЕДЕНИЕ
Актуальность диссертационного исследования
Речевые сообщения для человека, являются наиболее естественной формой информационного обмена. Поэтому в настоящее время широкое развитие получили компьютерные речевые технологии [44,48,52,5761,84,90,103,106,115,120,127,137,142]. При этом в компьютерных системах обработке подвергаются речевые сигналы (РС), представляющие собой результаты регистрации электрических колебаний, полученные на выходе микрофонов. Они формируются под воздействием акустических колебаний, возбуждаемых речевым аппаратом человека, и содержат информацию о произносимых звуках и их сочетаниях (словах и предложениях).
К настоящему моменту накоплен большой объем речевых материалов, и он продолжает неуклонно расти, что обусловлено необходимостью сохранения истории речевого обмена [38,52,57,61,115,120,137]. Сюда относятся: телефонные переговоры, записи с речевых регистраторов на социально и стратегически значимых объектах, конференции, передачи радиостанций, аудиокниги. Эти данные подвергаются анализу и обработке.
Одной из важных задач анализа записей речевых сообщений является поиск идентичных фрагментов РС, сформированных при произнесении одних и тех же словоформ (словные сегменты РС). Актуальность решения этой задачи определяется необходимостью контроля за содержанием записей, например, при анализе переговоров диспетчеров или в целях оперативно-розыскной деятельности.
В данной работе эта задача рассматривается в следующей формулировке: в записи РС оператором на слух определяется словный сегмент, содержащий заданное слово. Необходимо в остальной части записи в автоматическом режиме найти идентичные словные сегменты, в том смысле, что они порождены при произнесении такой же словоформы одним и тем же лицом.
Следует отметить, что отрезок речевого сигнала, содержащий заданное слово является прецедентом, а задачу поиска идентичных прецеденту отрезков будем называть - прецедентной идентификацией.
Решение поставленной задачи путем прослушивания речевого материала представляется достаточно утомительной процедурой. Существующие системы автоматического распознавания речи [5,94,97,115,120,137,145] имеют общее назначение (построены на усредненных характеристиках голосов дикторов, записанных в определенных условиях и строго определенных словарях) и требуют обширных текстовых и речевых материалов для обучения.
Кроме того, существующие системы не учитывают специфику данной задачи, которая в первую очередь, заключается в необходимости управления вероятностями ошибок I и II рода: предполагая, что пропуск идентичных словных сегментов является более нежелательным исходом для поставленной задачи, чем ложное признание идентичности.
Еще одним немаловажным фактором является необходимость учитывать нюансы обрабатываемой записи: особенности произношения конкретного диктора и окружающий акустический фон.
Можно отметить, что задача прецедентной идентификации в представленном виде в литературе не рассматривается.
Вместе с тем, перечисленные выше задачи компьютерного анализа записей устной речи определяют актуальность создания методов и алгоритмов прецедентной идентификации словных сегментов РС при контроле за содержанием речевого обмена.
В основе алгоритмов прецедентной идентификации целесообразно использовать модели, которые бы позволяли описывать процессы слухового восприятия речи человеком в количественном виде. Такие модели принято называть психоакустическими.
Степень разработанности проблемы
Результаты проведенных исследований в области изучения слуховой системы изложены во многих литературных источниках: [4,6,55,56,64,84,85, 93,100,111,112,113,114,118,125,126,144,146,147,148,149]. Вклад в развитие данной области знаний внесли следующие авторы: Бекеши Д., Гемгольц Г., Джонстон М., Лабутин В.К., Молчанов А.П., Новосёлова М.В., Стивенс С.С., Фастл Х., Фельдкеллер Р., Фланган Дж. Л., Цвикер Э., Чистович Л.А., Шредер М. и др.
Следует отметить, что в основе проведенных исследований использовалась парадигма частотных представлений и в частности гипотеза о полосовой фильтрации аудио-сигналов элементами базилярной мембраны. Поэтому в экспериментах со слуховыми системами использовались либо синусоидальные воздействия, либо узкополосные сигналы.
Однако, в настоящее время нет такой математической модели, которая бы позволяла с единых позиций воспроизвести результаты различных психоакустических экспериментов. Такие модели принято называть феноменологическими. Разрозненность существующих психоакустических моделей не позволяет адекватно воспроизвести процедуры фильтрации РС в базилярной мембране.
Таким образом, задача разработки методов и алгоритмов прецедентной идентификации отрезков РС по заданному словному отрезку на основе создания модели психоакустических явлений, является актуальной.
Целью диссертационной работы является совершенствование методов и алгоритмов компьютерного анализа русской устной речи на основе создания метода прецедентной идентификации словных сегментов речевых сигналов с разработкой феноменологической математической модели психоакустических явлений.
Для достижения поставленной цели сформулированы и решены следующие задачи исследования:
1. Анализ методов компьютерной обработки речевых сигналов с позиций прецедентной идентификации их словных сегментов;
2. Разработка феноменологической математической модели психоакустики и определение на ее основе пространства психоакустических признаков, позволяющих провести идентификацию отрезков речевых сигналов по заданному прецеденту;
3. Разработка метода прецедентной идентификации отрезков речевых сигналов, включая решающие функции и методику обучения по одному словному прецеденту;
4. Разработка алгоритмов обработки речевых сигналов при прецедентной идентификации их словных сегментов;
5. Исследование работоспособности разработанной процедуры обработки речевых сигналов при прецедентной идентификации их словных сегментов на основе вычислительных экспериментов.
Научную новизну работы составляет следующее:
1. Феноменологическая математическая модель психоакустических явлений, которая позволяет адекватно воспроизвести эмпирические данные исследований слуховой системы человека.
2. Решающая функция прецедентной идентификации на основе психоакустических признаков, включая процедуру обработки сегментов речевых сигналов и оценивание полученных результатов с позиций справедливости начальной гипотезы об идентичности сравниваемых отрезков.
3. Методика обучения по единственному словному отрезку-прецеденту с целью определения критических областей решающей функции при проверке гипотезы об идентичности анализируемых сегментов прецеденту.
Теоретическая значимость работы определяется математической феноменологической моделью психоакустических явлений и разработанной на ее основе, решающей функцией для проверки гипотез об идентичности сравниваемых отрезков словному отрезку-прецеденту.
Практическая значимость работы определяется возможностью построения процедур контроля за содержанием речевого обмена на основе определения сегментов РС, идентичных выбранному словному отрезку-прецеденту.
Полученные в ходе диссертационного исследования результаты, используются в Белгородском региональном Центре Связи ОАО «РЖД», а также в учебном процессе магистров по направлению подготовки 11.04.02 Инфокоммуникационные технологии и системы связи, что подтверждается соответствующими документами (Приложение А).
Объект исследований: прецедентная идентификация словных сегментов речевых сигналов.
Предмет исследований: методы компьютерного анализа речевых сигналов.
Методы исследований. В работе использованы методы: анализа Фурье, линейной КИХ-фильтрации, математического моделирования, линейной алгебры, методологии принятия статистических решений, цифровой обработки сигналов, и вычислительных экспериментов.
Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.17 «Теоретические основы информатики» (технические науки) по следующим областям исследований:
п.5. Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.
п.6. Разработка методов, языков и моделей человеко-машинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке.
Положения, выносимые на защиту:
1. Метод прецедентной идентификации словных сегментов с использованием феноменологической математической модели психоакустических явлений;
2. Алгоритмы обработки РС при прецедентной идентификации словных сегментов РС, включая методику обучения по прецеденту.
3. Результаты вычислительных экспериментов, иллюстрирующие работоспособность алгоритмов прецедентной идентификации словных сегментов РС.
Достоверность выводов и рекомендаций обусловлена корректностью применяемых математических преобразований, отсутствием противоречий с известными фактами теории и практики обработки речевых сигналов, в том числе распознавания речи и иллюстрируется результатами вычислительных экспериментов с реальными записями речевых сообщений.
Связь с научными и инновационными программами. Результаты диссертационного исследования были использованы при выполнении ряда работ и проектов в рамках следующих научных и исследовательских программ:
o Erasmus Mundus Europe mobility program SGA 2013-2520/001 - 001 in University of Tübingen, Germany, Winter Semester 2015-2016.
o Erasmus+ Europe academic mobility program NL GR0NING03 in Hanze University of Applied Sciences, Groningen, Netherlands, March 18, 2018 -March 24, 2018.
o Внутривузовский конкурс грантов Белгородского государственного исследовательского университета по программе «Поддержка исследований аспирантов очной формы обучения», 2013 год.
o Программа Фонда содействия развитию малых форм предприятий в научно-технической сфере У.М.Н.И.К., 2013-2015 гг. o ПНИЭР Шифр 2014-14-582-0002-011, 2014 г. o Грант РФФИ проект № 15-07-01463, 2015 г.
о Грант РФФИ проект № 17-07-00268, 2017 г. Апробация результатов исследования.
Результаты диссертационного исследования обсуждались на следующих научно-технических, научно-практических конференциях:
о Международная научно-техническая конференция
«Информационные технологии в науке, образовании и производстве», сроки проведения 17-18 мая 2012 г., г. Орел, Россия.
о Всероссийская молодежная конференция «Теория и практика системного анализа», сроки проведения 1-3 октября 2012 г., г. Белгород, Россия.
о Международная молодежная конференция «Прикладная математика, управление и информатика» секция «Компьютерная обработка данных», сроки проведения 3-5 октября 2012 г., г. Белгород, Россия.
о V Международная научно-практическая конференция «Проблемы и перспективы развития ИТ-индустрии», сроки проведения 25-26 апреля 2013 г., г. Харьков, Украина.
о III Международная научно-практическая конференция «Современные направления развития информационно-коммуникационных технологий и средств управления», сроки проведения 12-13 апреля 2013 г., г. Киев, Украина.
о I Молодежная научно-практическая конференция с международным участием «Естественнонаучные, инженерные и экономические исследования в технике, промышленности, медицине и сельском хозяйстве», 20-21 апреля 2017 г., г. Белгород, Россия.
Публикации. По теме диссертационного исследования опубликовано 10 печатных работ (из них 8 в журналах из списка ВАК РФ), получено 5 свидетельств о государственной регистрации программ для ЭВМ (Приложение Б).
Личный вклад соискателя. Все изложенные в диссертации результаты исследования получены либо соискателем лично, либо при его непосредственном участии.
Объем и структура работы. Диссертация состоит из введения, четырех глав, заключения и приложений. Работа изложена на 189 страницах машинописного текста, включая 59 рисунков, 13 таблиц и список литературных источников из 149 наименований.
ГЛАВА 1 МЕТОДЫ И АЛГОРИТМЫ АНАЛИЗА ОТРЕЗКОВ РЕЧЕВЫХ СИГНАЛОВ
1.1 Основные модели генерации и восприятия речевых сигналов
Речь является естественной и, поэтому наиболее распространенной формой информационного обмена для человека. В настоящее время существует тенденция к увеличению доли речевого обмена в компьютерных системах. При этом существенное внимание уделяется разработке различных методов обработки и анализа речи. Следует отметить, что в компьютерных системах обработке подвергаются речевые сигналы, представляющие собой результаты регистрации электрических колебаний, полученные на выходе микрофонов.
Речевые сигналы содержат информацию о произносимых звуках и их сочетаниях (словах и предложениях). Некоторые из этих сочетаний часто представляют особый интерес, что говорит об актуальности задачи поиска соответствующих отрезков речевых сигналов в имеющихся записях речевого материала. Поиск таких сочетаний, на основе их сравнения с заданным образцом прецедентом, принято называть идентификацией. Следует отметить, что, как правило, анализу подвергаются РС на основе моделей, которые отражают те или иные свойства сигналов.
Основной моделью представления речевого сигнала, являются отсчёты, взятые на выходе микрофонов в дискретные моменты времени. Такая модель представления содержит всю доступную информацию о сигнале. Речевые сигналы, зачастую, имеют большую длительность, поэтому целесообразно разбивать сигнал на некоторый набор отсчётов, соответствующий ограниченному отрезку времени. Такой набор отсчётов будем называть отрезком.
Возможность идентификации определяется схожестью сравниваемых отрезков РС, полученных при произнесении одних и тех же звуков или их
сочетаний. Несмотря на то, что все отрезки РС являются уникальными в строгом смысле, между некоторыми из них можно найти сходства в виду того, что они были сформированы под воздействием одних и тех же звуков или их сочетаний.
Каждый отрезок РС несет в себе информацию не только о конкретном звуке речи, но и биометрическую информацию диктора, а также шумы. Это проявляется в избыточности информации заключенной в наборе отсчётов и ведет к невысокой стабильности даже для идентичных звуков и сочетаний. Естественно предположить, что отрезки речевого сигнала можно идентифицировать, не используя всю информацию, содержащуюся таком наборе. В виду того, что некоторые характеристики могут проявлять большую стабильность в поведении, поэтому для решения задачи идентификации, целесообразно выделять некоторые количественные характеристики речевого сигнала, которые принято называть признаками. Это дает возможность производить над ними сопоставительные вычисления. Кроме того, выделяемые признаки должны отражать особенности речевых сигналов. В качестве признаков в задачах идентификации отрезков РС могут использоваться временные, частотные и прочие характеристики речевого сигнала, которые, в различной степени, отражают особенности речевого аппарата.
Одной из наиболее стабильных характеристик отрезка РС можно считать распределение энергии по частоте. Распределение энергии по частоте для речевого сигнала изменяется в процессе произнесения различных звуков и зависит от положения артикуляторов: языка и зубов. При этом, одни гармонические составляющие усиливаются, другие подавляются. Распределение частотных компонент является важной характеристикой отрезков РС, т.к. сохраняет стабильность для одних и тех же звуков речи. Кроме того, речевой сигнал обладает важным свойством концентрации энергии в малой доле частотной полосы, поэтому анализ его частотных компонент является довольно естественным.
1.1.1 Модель генерации РС на основе частотных представлений
Речевой сигнал представляет собой нестационарный сигнал сложной формы, т.к. сформирован под воздействием различных звуков, следующих друг за другом, а также пауз, разделяющих их сочетания. Отдельные отрезки РС представляют собой квазистационарные участки длительностью 10 -30 мс [69]. Частотный спектр речевого сигнала, как правило, сосредоточен в пределах 50 - 8000 Гц. Речевой сигнал можно представить в виде функции с бесконечной или конечной областью определения / е[а,Ь]. Модель на основе частотных представлений имеет вид [29]:
1 да
/© = — \ ¥(о)ехр(ОУ1&
2п
л " (1.1)
где ¥ (о) является весовой функцией, аргумент которой определяется как:
а = 2ж - и
(1.2)
где а является круговой частотой, а и выражает частоту в герцах, частота а отражает периодичность изменений функции речевого сигнала (1.1).
Выражение (1.1) является представлением функции /(0, которая позволяет вычислить ее при некоторых заданных параметрах.
Чаще всего в качестве весовой функции используется так называемая трансформанта Фурье (ТФ):
ь
¥(о) = \ / ^)ехр(-]а)Ж (1.3)
Результат такого преобразования принято называть спектром сигнала [68]. Трансформанта Фурье позволяет получить представление о том, из каких частотных составляющих состоит функция /(:). Таким образом, выражение
(1.3) представляет собой инструмент анализа. В соответствии с изложенными соображениями, трансформанту Фурье можно называть частотной характеристикой РС.
Соотношение (1.1) является моделью, описывающей речевой сигнал. Необходимо отметить, что выражение (1.1) можно считать выражением принципа суперпозиции в общем случае бесконечного количества периодических компонент, на которые может быть разложен речевой сигнал [29]. Для выражения (1.3) справедливо равенство Парсеваля [69]:
и ии
|/2(г)( = 11 ^(ю)|2 (ю/2л
(1.4)
Равенство Парсеваля, нетрудно преобразовать к виду:
ь ю
|/2(;)( = 2 | IF(ю)|1 (ю/2л,
а г=0 юеВг (15)
где интервалы Ок определяют разбиение оси частот вида
Вг = [-О^,-О) и [Ог, Пг+1), где О0 = 0 (1.6)
Выражение (1.5) позволяет оценить, как энергия речевого сигнала распределена по частотной оси, таким образом, является важным инструментом анализа сигнала. Оказывается возможным осуществить частотный анализ энергетических характеристик исследуемой функции, так как интегралы [29]:
Р = \ I Дю)|2 (ю/2л,
а
—со
определяют части энергии, попадающие в выбранные частотные интервалы. В частности, можно выделить частотные интервалы, в которых сосредоточена подавляющая доля энергии, либо почти периодические компоненты исходной функции, энергии которых сосредоточены в разных интервалах [29], если последние достаточно узкие по сравнению со значением:
В = 2п/(Ь - а), (1.8)
где а =0; Ь = Т;
Следует заметить, что подынтегральная функция в правой части соотношения (1.4) часто называется спектральной плотностью мощности, что подчёркивает «физический» смысл этой характеристики [29]. Вместе с тем представляется более обоснованно в качестве физической характеристики эмпирических данных использовать интегралы вида (1.7). Адекватность такого подхода обусловлена наличием в сигнале областей с высокой сосредоточенностью энергии в узкой доле частотной полосы. Такие области принято называть формантными областями или формантами. При этом количество и расположение формант определяются видом произнесенной фонемы.
1.1.2 Частотный анализ Фурье дискретных сигналов
В компьютерных системах оперируют, как правило, не с аналоговым речевым сигналом, а некоторой моделью сигнала, экономно представляющей речевой сигнал и отражающей смысловую и биометрическую информацию. В первую очередь, речь идет о модели сигнала, представляющей сигнал в виде последовательностей отсчётов, регистрируемых через определенные промежутки времени:
+1 = + Д *, к = ^...ы, (1 9)
где tk, определяется следующим образом: = Аt • (к -1), Дt - шаг дискретизации:
А = Т(1.10)
Выбор частоты дискретизации определяется возможностью последующего восстановления сигнала. Восстановление сигнала обеспечивает операция интерполяции, которая позволяет построить промежуточные значения величины между известными дискретным значениям отчетов. Существует несколько подходов к интерполяции сигнала, использующие различные функции интерполяции: экстраполятор нулевого порядка, линейная интерполяция, интерполяция функциями кардинального синуса и другие [68]. Разные функции интерполяции будут давать разный результаты восстановленного сигнала на одном и том же наборе известных значений.
Очевидно, что чем меньше шаг дискретизации, тем меньше промежуточных значений необходимо будет восстановить, однако это приводит к увеличению объемов битового представления сигнала.
В соответствии с теорией Найквиста, описанной в следующих источниках [68,115], можно, в определенной степени, судить о необходимой частоте дискретизации, которая может обеспечить неискаженное восстановление сигнала.
Запишем модель представления для дискретных речевых сигналов:
А t г
/к рд (ю) • ехр( }юА t (к - 1)) (ю,
-О (1.11)
где /к = /(кАt) < л / Аt, О = л / Аt.
Трансформанта Фурье для дискретных речевых сигналов определяется следующим соотношением:
N
Рд(ю) = У / ■ ехР(-Ю<(к - !))>
к=1
(1.12)
где -- / Аt <ю<- / Аt.
Результат такого преобразования принято называть спектром дискретного сигнала. Равенство Парсеваля при этом примет следующий вид:
N 1
У /к2 = — \Рд(ю5)|2 <!&,
к = 1
2- - (1.13)
где Ю = - нормированная круговая частота.
Аналогом (1.7) будет служить следующее выражение, позволяющее оценивать доли энергии отрезка дискретизованного речевого сигнала:
Рг = 2- \ (Ю)|\Ю
(1.14)
Следует отметить, что доли энергии сигнала целесообразно использовать в качестве признака, отражающего свойства РС.
Для определения Вг справедливо выражение (1.6), однако должно удовлетворяться неравенство:
П г+1 <П = -/ At (115)
Выражение, связывающее трансформанты Фурье непрерывного речевого сигнала и его дискретизованный вариант:
1 ^ ( 2-Л
^ (ю) = —У ^ I ю + —— ,| ю|<- / Аt ^ А thL I А t ' '
у
(116)
При финитной области определения трансформанты Фурье непрерывного сигнала и выборе величины шага дискретизации исходя из условия:
/(л/А + е) = 0, £> 0, (117)
для соответствующих трансформант Фурье будет выполняться равенство:
/д(ю) = /(ю) / Аt, Ц < л / Аt (1 18)
Следует отметить, что условие (1.17) может быть выполнено, для финитных отрезков сигналов, лишь приближенно.
Если аналоговый сигнал не содержит в своем спектре частот о>ив, то его можно точно восстановить по дискретным отсчётам, взятым равномерно с частотой дискретизации удовлетворяющей условию:
— ^ 2 •ив,
А (1.19)
с помощью следующей формулы интерполяции:
/ ^) = У /к sm(О (t - к • А t)) / (t - к •А t) / О,
к=-« (1.20)
где -да < t < да, а О=т- л/ А, причем т, согласно условию равенства, в узлах интерполяции эмпирическим данным, должно быть целым числом [29].
Трансформанта Фурье позволяет в достаточной степени судить о частотном составе РС. (ю) можно считать одним из основных признаков речевого сигнала, т.к. содержит неискаженную информацию о частотном составе речевого сигнала. Следует отметить, что /д (ю) имеет явный
физический смысл, ТФ представляет сигнал в виде суммы составляющих его гармоник, а квадрат модуля ТФ является спектральной плотностью.
Распределение энергии сигнала по частоте принято называть спектральной плотностью. Спектр для непрерывных сигналов определяется формулой (1.3), для дискретных сигналов формулой (1.12). Области спектра звука, в которых сосредоточивается основная мощность акустического сигнала, называются формантными областями или формантами [20]. Большинство звуков речи имеют от двух до четырех формант, что обусловлено участием в образовании звуков резонаторов голосового тракта полостей рта и носоглотки.
При обработке речевых сигналов, которые представляют собой нестационарные сигналы и обладают свойством концентрацией энергии в узких долях частотной полосы, ТФ является адекватным инструментом анализа. Однако, в виду нестационарности РС, при обработке таких сигналов с помощью ТФ невозможно определить момент времени в которой проявляется та или иная гармоника - рисунок 1.1.
Параметры для генерации сигналов приведены ниже. Для стационарного сигнала х^г):
х1 (t) = соб(2л • и^) + соэ(2л • и21) + соэ(2л • и3г) + соэ(2л • и41) и1 = 15 Гц; и2 = 25 Гц; и3 = 50 Гц; и4 = 100 Гц; t = [1,2,..,1000].
Для нестацинарного сигнала х2(г):
Х2(г) = С08(2л • и+ С08(2л • и2/2) + С08(2л • и3/3) + С08(2л • и4г4) и = 15 Гц; и2 = 25Гц; и3 = 50Гц; и4 = 100Гц = г [1,2,..,249]; г2 = г [250,251,..,499]; г3 = г[500,501,..,749]; г4 = г[750,751,..,1000]
Стационарный сигнал Нестационарный сигнал
частота, Гц частота, Гц
Рисунок 1.1 -Рассчитанные спектры стационарного х^) и нестационарного х2^) сигналов
Данная особенность ТФ приводит к необходимости анализа сигнала по коротким отрезкам. Такие короткие отрезки анализа принято называть окнами. Длительность таких отрезков обычно не превышает 20-30 мс. [120]
Также из рисунка 1.1 можно сделать вывод о том, что ТФ обладает недостаточной информативностью при обработке нестационарностей. Это проявляется в различных артефактах спектра (паразитные высокочастотные компоненты, «дрожание спектра» и др.), которые вызваны разрывами, резкими переходами, ступеньками и пиками анализируемой функции во временной области.
Оценка частотных представлений сигнала с помощью ТФ и путем разбиения сигнала на отрезки конечной длительности получила название оконного преобразования Фурье [69]. Такой подход позволяет получить частотно-временное разрешение сигнала и позволяет судить о тех или иных локальных проявлениях частотных компонент.
К (ю) = У Щ ■ /к ■ ехр(-(к -1)),
к=1 (1.21)
где чк представляет собой оконную функцию.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Методы и алгоритмы повышения эффективности информационно-телекоммуникационных систем при хранении и передаче речевых данных2012 год, доктор технических наук Белов, Сергей Павлович
ПРЕЦЕДЕНТНОЕ РАСПОЗНАВАНИЕ ФРАГМЕНТОВ ИЗОБРАЖЕНИЙ ЗЕМНОЙ ПОВЕРХНОСТИ2016 год, кандидат наук Лихошерстный Алексей Юрьевич
Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных2007 год, кандидат технических наук Стефанова, Ирина Алексеевна
Повышение эффективности алгоритмов компрессии цифровых аудиоданных на основе учета временной маскировки2007 год, кандидат технических наук Зырянов, Максим Викторович
Сегментация речевых сигналов для задач автоматической обработки речи2017 год, кандидат наук Томчук, Кирилл Константинович
Список литературы диссертационного исследования кандидат наук Бабаринов Сергей Леонидович, 2018 год
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. ГОСТ Р ИСО 226-2009 Акустика. Стандартные кривые равной громкости // Стандартинформ, - Москва, 2010 г.
2. ГОСТ Р 50840-95 Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости // Стандартинформ, - Москва, 1996 г.
3. Аграновский, А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов [Текст]/ А.В. Аграновский, Д.А. Леднов -М.: Радио и связь, 2004. - 164 с.
4. Алдошина, И.А. Основы Психоакустики [Электронный ресурс] Цикл статей из журнала «Звукорежисер», номера 1-10, Режим доступа: http://nsk.jagannath.ru/users_files/books/Osnovy_psihoakustiki.pdf (17 мая 2012 г)
5. Алиса: голосовой помощник от компании Яндекс [Электронный ресурс] // Корпоративный блок компании Яндекс, Режим доступа: https://yandex.ru/blog/company/alisa (10 октября 2017 г.)
6. Ананьев Б. Г. Теория ощущений. - Л., 1961. - С. 579. - 928 с.
7. Бабаринов, С.Л. Архитектура вычислительной системы сегментации речи [Текст] // Бабаринов С.Л., Курлов А.В., Чадюк П.В., Чеканов Н.А. / Вопросы радиоэлектроники, Серия РЛТ, 2013, Москва, январь вып. 1., с. 26-34.
8. Бабаринов, С.Л. Программная система поддержки принятия решений при оценивании качества речи [Электронный ресурс] // Бабаринов С.Л., Курлов А.В., Чадюк П.В. / ИСиТ 2013 «Информационные системы и технологии», [Орел] Режим доступа: http://isit-conf.gu-unpk.ru/conferences/2/materials/index (13 мая 2013 г.)
9. Бабаринов, С.Л. О распознавании речи [Текст] //Бабаринов С.Л., Будникова М.А. / Научные ведомости Белгородского государственного университета. Серия: История. Политология. Экономика. Информатика. 2014. № 21 (192), Выпуск 32/1. С. 182-185
10. Белов, С.П. О различиях частотных свойств информационных и неинформационных звуковых сигналов речевого диапазона [Текст] / С.П. Белов, А.С. Белов // журнал «Научные ведомости БелГУ» Серия: Информатика. - Белгород. - 2008. - Вып. 7(38). - С.214-221.
11. Вапник, В. Н. Теория распознавания образов [Текст] / Вапник В. Н., Червоненкис А. Я. / М.: Наука, 1974
12. Винцюк, Т.К., Анализ, распознавание и интерпретация речевых сигналов [Текст] / Винцюк Т.К. - Киев: Наук.думка, 1987. - 264с.
13. Воеводин, В.В. Матрицы и вычисления [Текст] / В.В. Воеводин, Ю.А. Кузнецов. - М.: Наука, 1984. - 318 с.
14. Воронцов, К.В. Математические методы обучения по прецедентам [Текст] / материалы лекций МФТИ - М., 2008
15. Гельмгольц, Г. Учение о слуховых ощущениях как физиологическая основа для теории музыки [Текст] / Пер. с немецкого. Изд. 3-е. - М.: Книжный дом «ЛИБРОКОМ», 2013. - 592 с.
16. Герасимов, А.В. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов [Текст] / А.В. Герасимов, О.А. Морозов, В.Р. Фидельман // Радиотехника и Электроника. - 2005. - том 50. №10. - С. 1287-1292.
17. Горский, Н Распознавание рукописного текста: от теории к практике [Текст] / Горский Н., Анисимов В., Горская Л. - СПб.: Политехника, 1997. -126 с.
18. Гребнов, С.В. Аналитический обзор методов распознавания речи в системах голосового управления [Текст] / С.В. Гребнов // Вестник ИГЭУ. -2009. - Вып.3. - С.83-85.
19. Гривен, В.Г. Введение в Вейвлет преобразование [Текст] / В.Г. Гривен // АВТЭКС, Санкт-Петербург, 2009, С. 302
20. Губочкин, И.В. Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального
информационного рассогласования [Текст]: автореф. дис. канд. техн наук / И.В. Губочкин - Нижний Новгород: НГЛУ, 2011. - 22с.
21. Гудонавичюс, Р.В. Распознавание речевых сигналов по их структурным свойствам [Текст]/Р.В. Гудонавичюс, П.П. Кемешис, А.Б. Читавичюс - Л.: «Энергия», 1977. - 64 с.
22. Деркач, М.Ф. Динамические спектры речевых сигналов [Текст]/ М.Ф. Деркач, Р.Я. Гумецкий, Б.М. Гура, М.Е. Чабан - Львов: Виша школа. Изд-во при Львов. ун-те, 1983. - 168 с.
23. Добеши, И. Десять лекций по вейвлетам [Текст] / Ижевск: Издательство РХД, 2001. - 464 с.
24. Дуда, Р.О. Распознавание образов и анализ сцен [Текст]/ Дуда Р.О., Харт П. Е. - М.: Мир, 1974. - 512с.
25. Дьяконов, В. П. Вейвлеты. От теории к практике [Текст] / М.: СОЛОН-Пресс, 2004. - 440 с.
26. Елисеева, И. И., Юзбашев М. М. Общая теория статистики: Учебник [Текст] / Под ред. И. И. Елисеевой. - 4-е издание, переработанное и дополненное. - Москва: Финансы и Статистика, 2002. - 480 с
27. Жиляков, Е.Г. Об одном подходе к обнаружению пауз в речевых сообщениях [Текст] / Е.Г. Жиляков, А.С. Белов // Материалы 8-ой международной научно-технической конференции УГАТУ «Проблемы техники и технологии телекоммуникаций. - Уфа. - 2007. - С.73-74.
28. Жиляков, Е.Г. Вариационные методы анализа сигналов на основе частотных представлений [Текст] // Е.Г. Жиляков, С.П. Белов, А.А. Черноморец / Вопросы радиоэлектроники, 2010. Т. 4 №1 С.10-25
29. Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. [Текст] / Е.Г. Жиляков. -Белгород: Изд-во БелГУ, 2007. - 160 с.
30. Жиляков, Е.Г. Исследование решающих функций при сегментации речевых сигналов для различных звуков русской речи [Текст] / Е.Г. Жиляков, А.А. Фирсова, Д.К. Секисов // Сборник трудов Второй
Международной научно-технической конференции «Компьютерные науки и технологии». - Белгород. 2011. - С.579-584.
31. Жиляков, Е.Г. Исследование сервиса компании Google Inc. По распознаванию русской речи [Текст]// Жиляков Е.Г., Бабаринов С.Л., Чадюк П.В. / Научные ведомости Белгородского государственного университета. Серия: История. Политология. Экономика. Информатика. 2013. Т. 27. № 15-1 (158). С. 247-255.
32. Жиляков, Е.Г. Компьютерная сегментация речевых сигналов [Текст] / Е.Г. Жиляков, Е.И. Прохоренко, А.А. Фирсова, Д.К. Секисов // Журнал «Вопросы радиоэлектроники». Сер. «Электронная вычислительная техника». - 2012.- Вып. 1. - С.48-54.
33. Жиляков, Е.Г. Метод обнаружения пауз в речевых сигналах [Текст] / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Системы синхронизации, формирования и обработки сигналов для связи и вещания. Материалы научно-технического семинара Российского научно-технического общества радиоэлектроники и связи имени А.С. Попова. - Белгород. - 2006. -С. 94-98
34. Жиляков, Е.Г. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений [Текст]/ Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко. -Белгород: Изд-во БелГУ, 2007. - 136 с.
35. Жиляков, Е.Г. Модели распределения энергии звуков русской речи на основе частотных представлений [Текст] / Е.Г. Жиляков, А.В. Болдышев, А.А. Фирсова// Материалы XXIII Международной научной конференции Математические методы в технике и технологиях - Саратов. -2010. - С.236-239.
36. Жиляков, Е.Г. Об одном алгоритме кодирования пауз в речевых данных [Текст] / Е.Г. Жиляков, Е.И. Прохоренко, А.А. Фирсова, А.В. Болдышев // Вопросы радиоэлектроники 2013, Т. 4, №1, С. 17-25
37. Жиляков, Е.Г. О кодировании пауз в речевых сигналах [Текст] / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Материалы Шестой Международной научно-технической конференции «Проблемы техники и технологии телекоммуникаций». -Уфа. - 2005. - С.73-74.
38. Жиляков, Е.Г. О сжатии речевых сигналов [Текст] / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Вестник Национального технического университета «ХПИ». - 2005. - вып.56. - С.32-41.
39. Жиляков, Е.Г. О субполосном кодировании сигнала [Текст] / Е.Г. Жиляков, И.Г. Попов, И.И. Чижов // Вестник национального технического университета «ХПИ». - 2004. - № 46. - С.
40. Жиляков, Е.Г. О субполосном преобразовании звуковых сигналов [Текст] / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Труды Российского научно-технического общества радиотехники, электроники и связи имени А.С. Попова. - Москва. - 2006. - Выпуск VIII-1. - С. 167-169.
41. Жиляков, Е.Г. Об использовании особенностей распределения энергии звуков русской речи [Текст] / Е.Г. Жиляков, А.В. Болдышев, А.А. Фирсова // Сборник научных трудов «Инновационные подходы к применению информационных технологий в профессиональной деятельности» по материалам второй Международной научно-практической Интернет-конференции Белгородского филиала НАЧОУВПОСГА. -Белгород.
- 2010. - С.323-326.
42. Жиляков, Е.Г. Об эффективности различных подходов к сегментации речевых сигналов на основе обнаружения пауз [Текст] / Е.Г. Жиляков, С.П. Белов, А.С. Белов, А.А. Фирсова, А.В. Глушак // Научные ведомости БелГУ. Серия История. Политология. Экономика. Информатика. -2010. - №7(78), вып. 14/1. - С.187-193.
43. Жиляков, Е.Г. Частотный анализ речевых сигналов [Текст] / Е.Г. Жиляков, Е.И. Прохоренко // Научные ведомости Белгородского государственного университета. Сер. Информатика и прикладная математика
- 2006. - №2(31), выпуск 3. - С.201-208.
44. Жиляков, Е.Г. Феноменологическая математическая модель психоакустики слуха человека [Текст] // Жиляков Е.Г., Бабаринов С.Л. Научные ведомости Белгородского государственного университета № 16 (265) 2017, Выпуск 43, с. 122 - 130
45. Зеленцов, И. А. Учебно - практические занятия по распознаванию древне-русской скорописи // [Текст] Печатные средства информации в современном обществе; секция «Электронные средства информации в современном обществе»; с б. тез. докл. науч. межвузовской конф. пр е-подавателей, аспирантов, молодых учёных и специалистов. М., 2010, 26 - 29 с.
46. Засыпкин, А.В. О дикторонезависимой системе голосового телефонного номеронабирателя [Текст] / А.В. Засыпкин, А.Т. Мицевич, М.В. Овецкий, В.Ю. Шелепов // Труды международной конференции «Знание-Диалог-Решение». - Ялта. - 1995. - с.427-430.
47. Кавальчук, А.Н. Формула для перехода из области частот к шкале барков и обратно [Текст] / А.Н. Кавальчук, Ал.А. Петровский // Информатика, 2011, 4(32), стр. 71-81
48. Каганов, А.Ш. Криминалистическая экспертиза звукозаписей [Текст] / А.ш. Каганов/- М.: «Юрлитинформ», 2005. - 272с.
49. Кагановский, Ю. Д. Применение модели линейного предсказания для анализа стохастических сигналов [Текст] // Технические науки: традиции и инновации: материалы междунар. науч. конф. / Челябинск: Два комсомольца, 2012. - С. 12-14.
50. Калинцев, Ю.К. Разборчивость речи в цифровых вокодерах [Текст] / - М.: «Радио и связь», 1991. - 220 с.
51. Кеч, В. Введение в теорию обобщенных функций с приложениями в технике. Перевод с румынского [Текст] /В. Кеч, П. Теодореску / М. Мир, 1978, 520 с.
52. Кипяткова, И.С. Автоматическая обработка разговорной русской речи: монография [Текст] / И.С. Кипяткова, А.Л. Ронжин, А.А. Карпов. СПИИРАН - СПб.: ГУАП, 2013. - 314 с.
53. Колерс, П.А. Распознавание образов. Исследование живых и автоматических распознающих систем [Текст] / П.А. Колерс, Е.Д. Мюрей, пер. Л.И. Титомира - М.: «Мир», 1970. - 288 с.
54. Князев, С.В. Современный русский литературный язык: Фонетика, орфоэпия, график и орфография: Учебное- пособие для вузов // С.В. Князев, С.К. Пожарицкая // 2- изд., перераб. и доп. - М.: Академически Проект; Гаудеамус, 2011. 430 с.
55. Лабутин, В. К. Слух и анализ сигналов [Текст] / В.К. Лабутин, А. П. Молчанов. - М.: Энергия, 1967. - 82 с.
56. Лабутин, В. К. Модели механизмов слуха [Текст] / В.К. Лабутин, А. П. Молчанов. - М.: Энергия, 1973. - 200 с.
57. Ле, Н.В. Распознавание речи на основе искусственных нейронных сетей [Текст] / Н.В. Ле, Д.П. Панченко // Технические науки в России и за рубежом: материалы междунар. заоч. науч. конф.- Москва. - 2011. - С.8-11.
58. Леонович, А.А. Современные технологии распознавания речи [Текст] /А.А. Леонович // Материалы конференции «Диалог: Компьютерная лингвистика и интеллектуальные технологии». - Звенигород. - 2005.
59. Ли, У.А. Методы автоматического распознавания речи. [Текст] В 2-х книгах. Кн.1. / Пер. с англ./Под ред. У. Ли. - М.; Мир, 1983. -328 с.
60. Ли, У.А. Методы автоматического распознавания речи. [Текст] В 2-х книгах. Кн.2. /Пер. с англ. Под ред. У. Ли. - М.; Мир, 1983. - 392 с.
61. Мазуренко, И.Л. Компьютерные системы распознавания речи [Текст] / И.Л. Мазуренко // Интеллектуальные системы. - Москва. - 1998. -т.3. вып. 1-2. - С. 117-134.
62. Мазуренко, И.Л. Одна модель распознавания речи [Текст] / И.Л. Мазуренко // Компьютерные аспекты в научных исследованиях и учебном процессе. - Москва - 1996 - С.107-112.
63. Малла, С. Вэйвлеты в обработке сигналов [Текст] / С. Малла, // перевод с Англ. М.: Мир, 2005. - 672 с.
64. Молчанов, А.П. Электрические модели улитки органа слуха [Текст] / А.П. Молчанов, Л.Н. Бабкина // Ленинград, изд. Наука, 1978, 181 с.
65. Ниценко, А.В. Алгоритмы пофонемного распознавания слов наперед заданного словаря [Текст] / А.В. Ниценко, В.Ю. Шелепов // Искусственный интеллект. - 2004. - С.633-639.
66. Новиков, Л.А. Современный русский язык [Текст] / Л.А. Новиков, Л.Г. Зубкова, В.В. Иванов и др. // под общей ред. Л.А. Новикова -СПб.: «Лань», 1999. - 865 с.
67. Оппенгейм, А. В., Шафер Р. В. Цифровая обработка сигналов [Текст] / А.В. Оппенгейм, Р.В. Шафер // Пер. с англ. под ред. С. Я. Шаца. - М.: Связь, 1979. 416 с.
68. Рабинер, Л.Р. Теория и применение цифровой обработки сигналов [Текст] / Л. Рабинер, Б. Гоулд // М.: Мир, 1978. - 848с.
69. Рабинер, Л.Р. Цифровая обработка речевых сигналов [Текст] / Л.Р. Рабинер, Р.Ф. Шафер - М.: Радио и связь, 1981. - 496 с.
70. Радзишевский, А. В. Основы аналогового и цифрового звука [Текст] / А.В. Радзишевский / М.: Издательский дом «Вильямс», 2006. - 288 с.
71. Савченко, В.В. Различение случайных сигналов в частотной области [Текст] /В.В. Савченко // Радиотехника и электроника. - 1997. - Т.42, №4. - С.426-429.
72. Сапожков, М.А. Вокодерная связь [Текст]/ М.А. Сапожков,
B.Г. Михайлов - М.: «Радио и связь», 1983. - 248 с.
73. Сергиенко, А.Б. Цифровая обработка сигналов. [Текст] / А.Б. Сергиенко //2 - изд. - СПб.: Питер, 2006. - 608 с.
74. Сорокин, В.Н. Артикуляторно-ориентированная система распознавания речи [Текст] / В.Н. Сорокин, А.Н. Ижнин, А.И. Цыплихин, Д.Н. Чепелев // Труды Международного семинара «Диалог - 2003». - 2003.
C.657-662.
75. Скляр, Б. Цифровая связь, Теоретические основы и практическое применение [Текст] / Б. Скляр // М.: «Вильямс», 2 издание, 2003 г - 1038 с.
76. Смоленцев, Н. К. Введение в теорию вейвлетов [Текст] / Н.К. Смоленцев //Ижевск: РХД, 2010. - 292 с.
77. Сорокин, В.Н. Модель многослойного первичного анализа речевых сигналов [Текст] / В.Н. Сорокин // Труды 13-й сессии Российского акустического общества. - 2003. - С. 11-16.
78. Сорокин, В.Н. Первичный анализ речевых сигналов [Текст] /
B.Н. Сорокин, Д.Н. Чепелев // Акустический журнал - 2005. - Т.51, №4. -
C.536-542.
79. Сорокин, В.Н. Сегментация и распознавание гласных [Текст] /
B.Н. Сорокин, А.И. Цыплихин // Информационные процессы. - 2004. - Т.4, №2. - С. 202-220.
80. Сорокин, В.Н. Сегментация речи на кардинальные элементы [Текст] / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. - 2006. - Т.6, №3. - С.177-207.
81. Фант, Г. Акустическая теория речеобразования [Текст] / Г. Фант -М.:Наука, 1964. - 304 с.
82. Фирсова, А.А. О возможности использования особенностей распределения энергии по частотным диапазонам в задачах сегментации речевых сигналов [Текст] /А.А. Фирсова, М.В. Фатова // Материалы 13-ой Международной конференции и выставки «Цифровая обработка сигналов и ее применение^РА'2011». Москва. - 2011. - С.255-258.
83. Фирсова, А.А. О различии концентрации энергии по частотным диапазонам на отрезках сигналов, соответствующих шипящим звукам русской речи и шумам [Текст] / А.С. Белов, А.В. Курлов, А.А. Фирсова // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. - 2011. - №13(108), выпуск 19/1. -
C.186-191.
84. Фланаган, Дж. Л. Анализ, синтез и восприятие речи [Текст] / Дж. Л. Фланган пер.с англ. А.А. Пирогова - М.:Связь, 1968. - 397с.
85. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. Перевод с немецкого под редакцией Б.Г. Белкина [Текст] / М., Связь, 1971
86. Чистович, Л.А. Физиология речи. Восприятие речи человеком [Текст] /Л.А. Чистович, А.И. Венцов, М.П. Гранстрем и др. -М.: Наука, 1976.
- 388 с.
87. Шанский, Н.М. Современный русский язык: Учеб. для пед. ун-тов [Текст] / Н.М. Шанский, В.В. Иванов - М.: «Просвещение», 1987. - 192 с.
88. Шаров, С.А. Частотный словарь русского языка [Электронный ресурс] // Частотность букв русского алфавита Режим доступа: http://www.artint.ru/projects/frqlist.php (декабрь 2001 г.)
89. Шелепов, В.Ю. К проблеме пофонемного распознавания [Текст] /
B.Ю. Шелепов, А.В. Ниценко // Искусственный интеллект. - 2005. - №4. -
C.662-668.
90. Шелухин, О.И. Цифровая обработка и передача речи [Текст] / О.И. Шелухин, Н.Ф. Лукьянцев; под ред. О.И. Шелухина. - М.: Радио и связь, 2000. - 456с.
91. Шлезингер, М.И. Десять лекций по статистическому и структурному распознаванию [Текст] / М.И. Шлезингер, В. Главач - Киев: Наукова думка, 2004 г.
92. Шлезингер, М.И. О самопроизвольном различении образов / [Текст] / Шлезингер М.И. // Читающие автоматы. - Киев, Наукова думка, 1965.
- Pp. 38-45
93. Шредер, М. Модели слуха [Текст] / М. Шредер перевод с англ. ТИИЭР. М.: Мир.-1975.-т. 63.- № 9,-С.
94. Alexa: Amazon Unveils a Listening, Talking, Music-Playing Speaker for Your Home // Bloomberg Businessweek. Bloomberg L.P. Available at: https://www.bloomberg.com/news/articles/2014-11-06/amazon-echo-is-a-listening-talking-music-playing-speaker-for-your-home (November 6, 2014)
95. Allen, J.B., How Do Humans Process and Recognize Speech?, IEEE Trans. On Speech and Audio Processing, 1994, 2(4), pp. 567-577.
96. Al-Naymat Ghazi, Chawla Sanjay, Taheri Javid Sparse DTW: A novel approach to speed up Dynamic Time Warping Proc. of the 8th Australasian Data Mining Conference (AusDM'09) p. 117-127; (2009)
97. Apple - Siri - Frequently Asked Questions. Apple Inc. Available at: https://www.apple.com/ios/siri/ (October, 4 2011)
98. Bahl, L.R., F. Jelinek, and R.L. Mercer A Maximum Likelihood Approach to Continuous Speech Recognition, IEEE Trans. on Pattern Analysis and Machine Intelligence, 1983, 5(2), pp. 179-190
99. Balentine, B. and D. Morgan, How to Build a Speech Recognition Application, 1999, Enterprise Integration Group
100. Georg von Bekesy, Experiments in hearing, N. Y., 1960
101. Bishop, C.M., Neural Networks for Pattern Recognition, 1995, Oxford, UK, Oxford University Press.
102. Bishop, C. M. Pattern Recognition and Machine Learning. - Springer, Series: Information Science and Statistics, 2006. - 740 pp
103. Brown, P.F., The Acoustic-Modeling Problem in Automatic Speech Recognition, PhD Thesis in Computer Science Department 1987, Carnegie Mellon University, Pittsburgh, PA.
104. Bogert, B. P., Healy M. J. R. and Tukey, J. W. The Quefrency Alanysis of Time Series for Echoes: Cepstrum, Pseudo Autocovariance, Cross-Cepstrum and Saphe Cracking. Proceedings of the Symposium on Time Series Analysis (M. Rosenblatt, Ed) Chapter 15, 209-243. New York: Wiley, 1963
105. Das, A. and A. Gersho, Variable Dimension Vector Quantization, IEEE Signal Processing Letters, 1996, 3(7), pp. 200-202.
106. Dong, Yu Automatic Speech Recognition: a deep learning approach (Signals and Communication Technology) / Springer; 2015 edition (November 11, 2014), p. 321
107. Dong Suk Yuk. Robust speech recognition using neural networks and hidden Markov models. Adaptations using non-linear transformations. - New Jersey: The State University of New Jersey, 1999.
108. Dudley, H., The Vocoder, Bell Labs Record, 1939, 17, pp. 122-126.
109. Eamonn, J. Keogh, Michael J. Pazzani Derivative Dynamic Time Warping, Section 1Proceedings of the sixth ACM SIGKDD, 2010
110. Farlow, Stenley J. Partial Differential Equations for Scientists and Engineers. John Wiley & Sons, Inc., 414 p., 1982
111. Fastl Hugo, Zwicker Eberhard Psychoacoustics: Facts and Models, 3rd ed. Springer, 2007, 462 p.
112. Flangan, J.L. Computational model for basilar membrane displacement. - "JASA", 1962, v.34, №8, pt. 2, p. 1370-1376
113. Flangan, J.L. Models for approximating basilar membrane displacement. - Bell Syst. Tech. J., 1962, v.41, p. 959-1009
114. Fletcher, Harvey and Munson W. A. Relation between Loudness and Masking. Journal of the Acoustical Society of America 9: 1-10; (1937).
115. Giannakopoulos, T. Introduction to Audio Analysis: A Matlab Approach 1st Edition / Theodoros Giannakopoulos, Aggelos Pikrakis / Academic Press; 1 edition (April 21, 2014), p. 288
116. Gillick, L.S. and R. Roth, A Rapid Match Algorithm for Continuous Speech Recognition, Proc. of the Speech and Natural Language Workshop, 1990, Hidden Valley, PA pp. 170- 172.
117. Helander, M., Handbook of Human-Computer Interaction, 1997, Amsterdam, North-Holland.
118. Hermann von Helmholtz On the sensations of tone: as a physiological basis for the theory of music // Print book. English. 1954. 2nd ed. N.Y.: Dover. 85.
119. Huang, X.D., Y. Ariki, and M.A. Jack, Hidden Markov Models for Speech Recognition, 1990, Edinburgh, U.K., Edinburgh University Press.
120. Huang, X.D. Spoken Language Processing: A Guide to Theory, Algorithm and System Development / Xuedong Huang, Alex Acero, Hsiao-Wuen Hon/ Prentice Hall PTC, New Jersey, 2001
121. Iwahashi, N., N. Kaiki, and Y. Sagisaka, Concatenation Speech Synthesis by Minimum Distortion Criteria, IEEE Int. Conf. on Acoustics, Speech and Signal Processing, 1992, San Francisco pp. 65-68.
122. Jayant, N.S. and P. Noll, Digital Coding of Waveforms, 1984, Upper Saddle River, NJ, Prentice Hall.
123. Jayant, N., Johnston J., Safranek R., «Signal Compression Based on Models of Human Perception», October 1992, p. 347
124. Jelinek, F. Statistical Methods of Speech Recognition/ A Bradford Book, January 16, 1998, p. 550
125. Johnstone, B.M., Yates G.K. Basilar membrane tuning curves in the guinea pig. - J. Acoust. Soc. America, 1974, v.55, p.584-587
126. Johnstone, B.M., Taylor K.J., Boyle A.J. Mechanics of the guinea pig cochlea. - J. Acost. Soc. America., 1970, v.47 N2, p. 504-509
127. Jurafsky, D. Speech and Language Processing, 2nd Edition / D. Jurafsky, J. H. Martin / Prentice Hall; 2nd edition (May 16, 2008), p. 1096
128. Kain, A. and M. Macon, Text-to-Speech Voice Adaptation from Sparse Training Data, Int. Conf. on Spoken Language Systems, 1998, Sydney, Australia pp. 2847-2850.
129. Klatt, D. and L. Klatt, Analysis, Synthesis and Perception of Voice Quality Variations among Female and Male Talkers, Journal of the Acoustical Society of America, 1990, 87, pp. 737-793.
130. Kohavi, R. A study of cross-validation and bootstrap for accuracy estimation and model selection // 14th International Joint Conference on Artificial Intelligence, Palais de Congres Montreal, Quebec, Canada, 1995, pp. 1137-1145.
131. Mahalanobis, Prasanta Chandra «On the generalized distance in statistics». Proceedings of the National Institute of Sciences of India, 1936, pp. 49-55.
132. McAulay, R.J. and T.F. Quateri, Speech Analysis/Synthesis Based on a Sinusoidal Representation, IEEE Trans. on Acoustics, Speech and Signal Processing, 1986, 34, pp. 744-754.
133. O'Shaughnessy, Douglas. Speech communication: human and machine. Addison-Wesley. p. 150. (1987)
134. Rubin, J., Handbook of Usability Testing: How to Plan, Design, and Conduct Effective Tests, 1994, New York, John Wiley.
135. Pieraccini, R. The Voice in the Machine: Building Computers that Understand Speech (MIT Press)/ Roberto Pieraccini, Lawrence Rabiner / The MIT Press; 51734th edition (March 23, 2012), p. 360
136. Rabiner, L.R. Digital Signal Processing / Rabiner L.R., Schafer R.W. / Pearson; US edition / September 15, 1978, p. 962
137. Rabiner, L.R. Fundamentals of Speech Recognition / Prentice Hall; 1st edition (April 22, 1993), p. 496
138. Rabiner, L.R. Theory and Applications of Digitals Signal Processing / Rabiner L.R., Schafer R.W. / Pearson; 1 edition (March 13, 2010), p. 1096
139. Rhode, W.S., Robles L. Evidence from Mossbauer experiments for nonlinear vibrations in the cochlea. J. Acost. Soc. America, 1974, v.55 p.588-596
140. Schmandt, C., Voice Communication with Computers, 1994, New York, Van Nostrand Reinhold.
141. Sohn, J., A statistical modelbased voice activity detection, N. S. Kim and W. Sung // IEEE Signal Process. Lett., pp. 1-3, 1999.
142. Shneiderman, B., Designing the User Interface: Strategies for Effective Human-Computer Interaction, 1997, Reading, MA, Addison-Wesley.
143. Steinberg, John C. Positions of stimulation in the cochlea by pure tones. Journal of the Acoustical Society of America 8 (3): 176-180, (1937).
144. Stevens, Stanley Smith; Volkmann; John; & Newman, Edwin B. (1937). A scale for the measurement of the psychological magnitude pitch. Journal of the Acoustical Society of America 8 (3): 185-190.
145. Voice Search in Russian, Polish, Czech and Turkish // Google Mobile blog - Available at: http://googlemobile.blogspot.ru/2010/10/voice-search-in-russian-polish-czech.html (October, 21 2010)
146. Wilson, J., Johnstone J.R. Basilar membrane and middle-ear vibrations in guinea pig measured by capacitive probe. - J. Acoust. Soc. Amer., 1975, v.57, pp.705-715
147. Zwicker, E. (1980), Analytical expressions for critical band rate and critical bandwidth as a function of frequency, E. Zwicker, E. Terhardt //The Journal of the Acoustical Society of America, 1980, 68, pp. 1523-1525
148. Zwicker, E. (1961), Subdivision of the audible frequency range into critical bands, E. Zwicker // The Journal of the Acoustical Society of America, 1961, 33, p. 248
149. Zwicker, E.; Feldkeller, R. Das Ohr als Nachrichtenempfanger. Stuttgart: Hirzel Verlag, st. 249, 1967.
ПРИЛОЖЕНИЕ А
р/д
Россииские железные дороги
ОТКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО «РОССИЙСКИЕ ЖЕЛЕЗНЫЕ ДОРОГИ» (ОАО «РЖД»)
АКТ
использования алгоритмов прецедентной идентификации в рабочем процессе
Настоящий акт составлен о том, что в Белгородском региональном Центре Связи ОАО «РЖД» проведены испытания возможностей и способов внедрения в рабочий процесс алгоритмов прецедентной идентификации, разработанных инженером кафедры информационно-телекоммуникационных систем и технологий НИУ «БелГУ» Бабариновым Сергеем Леонидовичем.
Существенным отличием представленных алгоритмов от существующих систем распознавания речи является прецедентность процедуры идентификации словных отрезков, что определяет адекватность процесса идентификации словных сегментов, в том числе на этапе обучения.
Представленная программная реализация технологии прецедентной идентификации может быть использована в работе экспертных комиссий при разборе нештатных ситуаций путем анализа записей речевых регистраторов.
В качестве достоинств представленной программной реализации информационной технологии словной прецедентной идентификации следует отметить:
1) снижение трудозатрат при анализе речевых записей, за счет автоматизации процесса поиска идентичных заданному прецеденту отрезков;
2) возможность составления протоколов анализа речевых записей;
3) дружественный интерфейс программной реализации, который не требует специального обучения оператора для использования разработанных алгоритмов.
Ведущий инженер технического отдела Белгородского регионального Центра С
Заверяю, ведущий специалист управления по работе с персоналом
ОАО «РЖД»
УТВЕРЖДАЮ Проректор по учебной работе и информатизации ФГАОУ ВО «Белгородский государственный национальный ^исследовательский университет», ких наук, доцент
А. В. Мам aro в
Лк^г о внедрении результатов исследовании, полученных в диссертации Бабаринова Сергея Леонидовича «Разработка и исследование метода и алгоритмов прецедентной идентификации отрезков речевых сигналов по заданному словному сегменту»
Мы, нижеподписавшиеся, и.о. директора Института инженерных технологий и естественных наук ФГАОУ ВО «Белгородский государственный национальный исследовательский университет», доктор технических наук, доцент Польщиков К.А., заведующий кафедрой информационно-телекоммуникационных систем и технологий, доктор технических наук, профессор Жиляков Е.Г., составили настоящий акт о внедрении результатов научных исследований, полученных Бабариновым С.Л., в образовательный процесс магистрантов по направлению подготовки 11.04.02 «Инфокоммуникационные технологии и системы связи».
В учебном процессе делаются акценты на необходимость овладения современными методами обработки речевых сигналов на основе следующих процедур.
№ Разработанная в диссертации базовая процедура Решаемые задачи обработки речевых сигналов
1 Воспроизведение амплитудно-частотных характеристик базилярной мембраны Исследование методов моделирования, позволяющих адекватно экспериментальным данным воспроизвести амплитудно-частотные характеристики базилярной мембраны (дисциплина Программное обеспечение обработки аудиовизуальной информации)
2 Воспроизведение кривых маскировки слуха Исследование методов моделирования, позволяющих адекватно
№ Разработанная в диссертации базовая процедура Решаемые задачи обработки речевых сигналов
экспериментальным данным воспроизвести кривые маскировки слуха (дисциплина Программное обеспечение обработки аудиовизуальной информации)
3 Воспроизведение шкалы восприятия высоты тона Исследование методов моделирования, позволяющих адекватно воспроизвести экспериментальные исследования высоты восприятия тона (дисциплина Программное обеспечение обработки аудиовизуальной информации) .
4 Словная прецедентная идентификация отрезков речевых сигналов Поиск отрезков, идентичных заданному прецеденту в виде отрезка речевого сигнала (дисциплина Программное обеспечение обработки аудиовизуальной информации)
Овладение новыми процедурами обработки речевых сигналов осуществляется на основании экспериментальных исследований с речевым сигналами.
И.о директора Института инженерных технологий и естественных наук, доктор техн. наук, доцент
Заведующий кафедрой информационно-телекоммуникационных систем и технологий доктор техн. наук, профессор
Автор разработки, Старший преподаватель кафедры информационно-телекоммуникационных систем и технологий
К.А. Польщиков
Е.Г. Жиля ков
С.Л. Бабаринов
ПРИЛОЖЕНИЕ Б
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.