Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания тема диссертации и автореферата по ВАК РФ 05.12.13, кандидат технических наук Кузнецов, Михаил Владимирович

  • Кузнецов, Михаил Владимирович
  • кандидат технических науккандидат технических наук
  • 2003, Самара
  • Специальность ВАК РФ05.12.13
  • Количество страниц 152
Кузнецов, Михаил Владимирович. Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания: дис. кандидат технических наук: 05.12.13 - Системы, сети и устройства телекоммуникаций. Самара. 2003. 152 с.

Оглавление диссертации кандидат технических наук Кузнецов, Михаил Владимирович

ВВЕДЕНИЕ.

1. ОБЩАЯ ХАРАКТЕРИСТИКА ПРОБЛЕМЫ РАСПОЗНАВАНИЯ ОБЪЕКТОВ И ЯВЛЕНИЙ.

1.1. Качественное описание задачи распознавания. ф 1.2. Основные задачи построения систем распознавания.

1.3. Классификация систем распознавания.

1.4. Различение и распознавание речи, музыки и тональной сигнализации.

1.5 Выводы.

2. АДАПТИВНАЯ ЦИФРОВАЯ ОБРАБОТКА ТОНАЛЬНЫХ СИГНАЛОВ В ГРУППОВЫХ ПРИЁМНИКАХ МНОГОЧАСТОТНОГО КОДА (ПМК).

2.1. Задача обнаружения гармонической Ф сигнализации в составе импульсных случайных потоков в системах цифровой телефонной связи.

2.2. ПМК с адаптивной дельта-модуляцией (АДМ).

2.3. ПМК с адаптивной дифференциальной импульсно - кодовой модуляцией (АДИКМ).

2.4. ПМК с нелинейной импульсно-кодовой модуляцией.

2.5. Выводы.

3. ИССЛЕДОВАНИЕ СПОСОБОВ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ИСПОЛЬЗОВАНИЯ СИСТЕМЫ СВЯЗИ

ЗА СЧЁТ РАСПОЗНАВАНИЯ ФОРМЫ СИГНАЛА.

3.1. Простой метод сжатия речевых сигналов.

3.2. Алгоритм распознавания изолированных слов.

3.3. Выводы.

4. АДАПТИВНЫЕ МЕТОДЫ РАСПОЗНАВАНИЯ РЕЧЕВЫХ, МУЗЫКАЛЬНЫХ И ГАРМОНИЧЕСКИХ СИГНАЛОВ.

4.1. Адаптивный метод распознавания сигналов одно- и двухчастотной сигнализации в телефонии на фоне речи.

4.1.1. Оценка законов распределения интервалов между нулями гармонических и речевых сигналов.

4.1.2. Результаты испытаний ПЛС с нелинейной цифровой фильтрацией.

4.2. Статистическое уплотнение канала связи за счет адаптации частоты дискретизации к ширине спектра передаваемого сигнала.

4.3. Выводы.

Рекомендованный список диссертаций по специальности «Системы, сети и устройства телекоммуникаций», 05.12.13 шифр ВАК

Введение диссертации (часть автореферата) на тему «Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания»

При решении ряда практических задач обнаружения и распознавания цифровых сигналов в телефонии часто приходится встречаться с априорной неопределённостью каналов связи, статистических параметров сигнала и помех. В условиях недостатка априорной информации затруднительно отдать предпочтение каким либо фиксированным алгоритмам обработки сигналов, оптимальным для всех случаев. Большой диапазон неопределённости значений параметров сигналов и помех приводит к недопустимым потерям качества алгоритмов обработки, рассчитанных на полностью известные статистические характеристики сигналов и помех. Этим объясняется интерес разработчиков к созданию адаптивных устройств, способных эффективно преодолевать значительную начальную неопределённость. Такие устройства находят в настоящее время широкое практическое применение в цифровой электросвязи, медицине, радиолокации и других областях. Примерами их использования в отечественных разработках могут служить БИС адаптивных кодеков в перспективных системах цифровой передачи речи на основе адаптивной дифференциальной импульсно-кодовой (АДИКМ) и адаптивной дельта-модуляции (АДМ), разработанных В.Г. Угером, В.М. Штейном (ЦНИИС, г.Москва), М.Д. Бенедиктовым (МТУСИ, г.Москва) и др.

При практической реализации алгоритмов адаптации весьма эффективным направлением оказывается использование теории выбросов случайных процессов. Многие задачи обнаружения и различения случайных и детерминированных сигналов на фоне помех с априорно неизвестными статистическими характеристиками приводят к построению устройств, адаптирующихся к наиболее информативным параметрам выбросов: числу пересечений заданного уровня за фиксированное время, распределению длительностей выбросов и пауз между ними, распределению времени пребывания сигнала в заданных границах и т.д. Таковы задачи распознавания речи, обнаружения тональной сигнализации на фоне речи в телефонии, измерения частоты сигнала на фоне помех, а также ряд других.

Большой вклад в теорию выбросов случайных процессов внесли учёные С.О. Райе, И.А. Мак-Фадден, В.И. Тихонов, Б.Р. Левин и др.

Разработка цифровых систем передачи непрерывных сообщений основывалась на теоретических работах К. Шеннона, Харкевича А.А., Котельникова В.А., Величкина А.И., Рабинера JI.P., Шафера Р.В., Прохорова Ю.Н., Кловского Д.Д. и других.

Существенный вклад в теорию и технику цифровых систем передачи непрерывных сообщений внесли работы В.Р. Беннета, М.У. Поляка, Ю.А. Алексеева, В.Э. Гуревича, И.С. Брайниной и другие.

В известных алгоритмах обработки сигналов в основном используются спектральные характеристики на основе БПФ (быстрого преобразования Фурье), что требует значительных вычислительных затрат. Анализ временных параметров существенно упрощает обработку сигнала в реальном масштабе времени.

Использование информации о форме полезного сигнала позволило повысить помехоустойчивость цифрового приёма на фоне импульсных помех, обусловленных искажением старших разрядов кодовых комбинаций нелинейной ИКМ. Информация об эффективной ширине спектра сигнала позволяет адаптивно подбирать частоту дискретизации пропорционально полосе частот сигнала.

В задачах обнаружения тональной сигнализации в составе импульсных случайных потоков на основе нелинейной ИКМ, АДИКМ и АДМ в алгоритмах адаптации используется информация о форме многочастотного сигнала, что позволяет оптимизировать пороги приема и полосу пропускания приёмника для каждой из принимаемых частотных компонент. В настоящее время, в России, вновь вводимая цифровая сеть сопрягается с существующей аналоговой телефонной сетью. Наиболее ответственным и сложным звеном в оборудовании сопряжения является групповой цифровой приёмник многочастотного кода (ПМК) набора номера.

Рост потребности в полосе порпускания оптического волокна носит «лавинный» характер. Технологии ATM, IP, PDH, SDH (STM-16/64) уже не справляются с катастрофическим ростом объёмов передаваемой информации. Это заставляет разработчиков систем связи искать такие решения, которые имеют значительный запас по пропускной способности и позволяют гибко увеличивать производительность сети.

Алгоритм определения эффективной ширины спектра на основе анализа формы сигнала позволяет адаптивно подбирать оптимальную частоту дискретизации сигнала пропорционально ширине его спектра и осуществлять статистическое уплотнение канала связи. На примере широкополосного цифрового радиовещательного канала с частотой квантования 32 кГц (передача стереопрограммы или классической музыки) реализована возможность передачи двух каналов вещания (16 кГц) и четырёх речевых каналов тональной частоты (8 кГц).

Таким образом, актуальность предложенной диссертационной работы заключается в повышении эффективности систем и устройств электросвязи за счёт их адаптации к временным характеристикам сигналов и помех.

Целью диссертации является разработка алгоритмов функционирования адаптивных устройств цифровой обработки сигналов в условиях априорной неопределённости статистических параметров каналов связи, сигналов и помех, а также оценка эффективности устройств, реализующих найденные алгоритмы.

Методы исследований.

Для решения поставленных задач в диссертационной работе используются: теория вероятностей, методы статистической теории связи, прикладная теория выбросов случайных процессов, методы цифровой обработки сигналов, спектральный и корреляционный анализ случайных процессов, нелинейная цифровая фильтрация, статистическое моделирование на ПК.

В первой главе проводится анализ теории распознавания.

Распознавание образов - это научное направление, занимающееся разработкой принципов и созданием систем, предназначенных для определения принадлежности объекта к одному из ранее известных классов объектов. Под объектом при этом понимают различные предметы, явления, процессы, сигналы, ситуации. Каждый объект описывается совокупностью признаков (свойств, характеристик, параметров):

А = alt а2,., ah ат где А - вектор образа; щ - признак; i - номер признака.

Если признаки представлены действительными числами, то можно образы векторов рассматривать как точки TV-мерного пространства.

Образ - это класс объектов. Он может быть задан с помощью некоторого набора различных реализаций, которую называют обучающей выборкой. Различие этих реализации зависит от многих причин: естественных флуктуаций параметров, шумов, погрешностей измерений и т.д. Те реализации образа, которые не участвовали в создании описания образа, называют контрольной выборкой.

Основные, традиционные задачи теории распознавания образов это выбор информативных признаков, выбор решающих функций, предварительная классификация объектов (таксономия).

Выбор признаков в значительной степени зависит от качества распознавания. Из множества различных характеристик объектов полученных непосредственными измерениями или какими-либо преобразованиями исходных описаний) надо выбрать наиболее существенные, которые позволяют достаточно компактно описать реализации образа и в то же время достаточно точно различать объекты.

Решающая функция должна позволять принимать решения отнесения контрольной реализации к одному из классов образов. При построении решающих функций необходимо учитывать закономерности описания образа, выявленные на обучающей выборке, кроме того, решающая функция должна отражать в себе некоторую гипотезу о характере изменения контрольных реализаций образов, которые будут поступать на вход системы в ее практической работе.

Задачей таксономии является выбор алфавита образов исходя из той или иной задачи обработки информации. Это могут быть, например, сегменты речевого сигнала, фонемы, целые слова. В геометрической интерпретации задача таксономии сводится к разбиению многомерного признакового пространства на определенное число областей.

Все три названные задачи тесно взаимосвязаны. Конечная цель состоит в увязке многих противоречивых требований к системе, например, минимальной стоимости и сложности системы при заданном допустимом проценте ошибок распознавания.

При выборе решающего правила используют понятия метрического пространства, метрики.

Метрическое пространство - это множество точек, на котором определена метрика. Метрика - правило определения того или иного расстояния между двумя точками А к В пространства - функция d(A,B) с неотрицательными действительными значениями.

Выбор вида метрики зависит от природы образов, от характера изменений признаков. Он должен обеспечивать изменение расстояния d, адекватное действительным различиям между реализациями образов. Эти собственные различия реализации могут быть оценены, например, методами психологических исследований на основе закономерностей человеческого восприятия. Окончательным критерием качества метрики при данной системе признаков является минимум числа ошибок распознавания контрольной выборки.

Распознавание представляет собой задачу преобразования входной информации, (в качестве которой уместно рассматривать некоторые параметры, признаки распознаваемых образов), в выходную, представляющих собой заключение о том, к какому классу относится распознаваемый образ.

Чтобы в полном объеме оценить всю сложность и значения этой проблемы, достаточно сказать, что создание искусственного интеллекта -это, по-видимому, построение распознающих систем, приближающихся по своим параметрам к возможностям человека в решении задач распознавания.

Вторая глава посвящена адаптивной цифровой обработке тональных одно- и двухчастотных сигналов в групповых приёмниках многочастотного кода (ПМК).

Решена задача обнаружения тональной сигнализации в составе импульсных случайных потоков для ПМК с адаптивной дельта -модуляцией (АДМ), адаптивной дифференциальной импульсно-кодовой модуляцией (АДИКМ) и нелинейной ИКМ.

Учитывая неизвестную начальную фазу двухчастотных сигналов на интервалах анализа, случайные сдвиги частот от номинальных значений, случайные «перекосы» уровней и длительностей «посылок», переадаптацию шага кодера при смене «знаков», цифровой поток на выходе каждого из перечисленных типов кодеров можно рассматривать как реализацию импульсного случайного процесса.

Независимо от типа кодера (ИКМ, АДИКМ, АДМ), каждый многоканальный ПМК должен адаптироваться к параметрам группового потока, представляющего собой сумму индивидуальных цифровых потоков с выходов отдельных кодеров.

В диссертационной работе с целью упрощения построения многоканальных ПМК любого типа, на интервалах анализа предложено использовать многоканальную запись в ОЗУ текущего отрезка группового цифрового сигнала в реальном масштабе времени, ускоренное последовательное одноканальное считывание из ОЗУ и одноканальную обработку предварительно записанного предшествующего отрезка сигнала.

Адаптивная дельта-модуляция (АДМ) со слоговым компандированием имеет ряд преимуществ перед импульсно-кодовой модуляцией (ИКМ): вдвое увеличивается пропускная способность абонентских линий за счет сокращения скорости передачи информации с 64 кБит/с при ИКМ до 32 кБит/с на канал при АДМ; упрощается построение цифровых телефонных станций благодаря одноразрядности дельта-потока; резко снижается из-за инерционности АДМ чувствительность к специфическим помехам типа «щелчков», возникающих при искажениях старших разрядов ИКМ-кода.

В АДМ-кодере шаг квантования адаптируется к крутизне сигнала, чем устраняются перегрузки кодера. Время нарастания шага составляет l-s-2 мсек, а время спада 10ч-20 мсек. Благодаря быстрому нарастанию шага кодер хорошо адаптируется к вокализованным звукам речи. В то же время из-за излишне крупного шага кодер искажает форму дельта-потока при передаче низкочастотной компоненты тональной сигнализации на фоне высокочастотной. Это снижает отношение сигнал/шум при корреляционной обработке двухчастотного сигнала и увеличивает вероятность ошибочного приёма знака набора номера из-за подавления низкочастотной составляющей.

В диссертационной работе предложено исправлять форму дельта-потока на входе ПМК за счёт использования априорной информации о форме тонального сигнала. Коррекция основана на инверсии одиночных дельта-импульсов, расположенных внутри последовательности импульсов противоположного знака. Для тональных сигналов характерно наличие длинных интервалов дельта-импульсов одного знака в областях перехода через ноль. Коррекция потока эквивалентна снижению шага квантования и подъёму уровня низкочастотной составляющей сигнализации, что увеличивает достоверность приёма двухчастотной комбинации (Рош<. 10"3).

АДИКМ - кодер, выполненный по современной технологии и удовлетворяющий рекомендациям МСЭ-Т G.726, существенно подавляет на своем выходе низкочастотную компоненту двухчастотного сигнала, а подъем его АЧХ составляет примерно 12дБ на октаву. Четырехразрядный q-поток ошибок предсказания на выходе АДИКМ-кодера в значительной мере является рандомизированным (зашумленным, случайным).

Цифровая фильтрация (интегрирование) q-потока с выхода АДИКМ -кодера в сочетании с автоматической адаптивной регулировкой коэффициента передачи интегратора позволили резко повысить помехоустойчивость приема двухчастотных и одночастотных сигналов в широком динамическом диапазоне уровней и «перекосов». Интегрирование цифрового потока на входе ПМК позволило скомпенсировать нелинейность АДИКМ-кодера и «выровнять» АЧХ в заданной полосе частот.

В работе описан адаптивный ПМК с ИКМ, обеспечивающий расширение динамического диапазона уровней приема двухчастотного сигнала и повышение помехоустойчивости за счёт введения блока автоматической регулировки уровня (АРУ) на входе приёмника. Блок АРУ содержит в своём составе преобразователь кода 8-разрядной нелинейной ИКМ в 4-разрядный код линейной ИКМ. Шаг квантования линейной ИКМ за время порядка (1-J-2) мсек адаптируется к уровню входного сигнала двухчастотного кода «2 из 6», изменяясь ступенчато в пределах 2°-г26. Благодаря этому удалось обеспечить сжатие динамического диапазона уровней ИКМ - сигнала на выходе блока АРУ в 64 раза (30 дБ). Динамический диапазон уровней линейных 4-разрядных кодов отсчетов сигнала на выходе блока АРУ (входе ПМК) не превышает 6дБ, что существенно облегчает дальнейшую ускоренную корреляционную обработку одноканального цифрового ИКМ-потока. В сумме с адаптивным подбором порогов приёма, учитывающих динамику нарастания отдельно каждой частотной составляющей в коррелометре, позволило получить несложный ПМК по своим возможностям практически перекрывающий все нормы МСЭ-Т G.726, разработанные без учета влияния ИКМ - кодера. Моделирование этого ПМК на ПЭВМ подтвердило его высокую помехоустойчивость в самых тяжелых режимах работы.

В третьей главе исследовались методы повышения эффективности систем связи за счёт распознавания формы сигнала.

В диссертационной работе описан простой, но достаточно эффективный алгоритм сжатия речевого сигнала на временной основе, базирующийся на сильных корреляционных связях между периодами основного тона речи и формантных компонент вокализованных звуков.

На примере слова «ноль», произнесённого женским голосом, показана возможность сжатия речевого сигнала примерно в 30 раз, как за счёт адаптации шага квантования к среднему модулю сигнала, так и благодаря квазипериодичности вокализованных отрезков речи.

В алгоритме используется избыточность квазистационарных участков вокализованной речи и устраняются малые уровни, т.е. сигнал в паузах приравнивается к нулю. Речь разбивается на отрезки (интервалы анализа), равные 16 мсек, не превышающие половины интервала локальной стационарности порядка 40 мсек. На каждом отрезке определяется средний модуль, число переходов через ноль и устанавливается адаптивный шаг квантования по уровню, равный половине среднего модуля. Использование адаптивного шага квантования позволяет снизить разрядность кода отсчёта речевого сигнала без заметных . потерь информации приблизительно в 3 раза.

На вокализованном участке в процессе синтеза слова воспроизводится один период основного тона речи столько раз, сколько звучит этот участок слова.

Для женских и детских голосов период основного тона речи составляет 2+3 мсек, а для мужских - до 10 мсек, при средней продолжительности гласного звука порядка 150^-200 мсек.

До сжатия слово содержало 3328 восьмиразрядных отсчётов, то есть для его описания требовалось 3328 байт. Предложенный алгоритм обеспечил 30-кратное сжатие необходимого объёма памяти. При этом сохранилась узнаваемость по голосу, качество звучания соответствовало экспертной оценке в 3 балла по пятибалльной шкале. Отметим также, что предложенный алгоритм позволяет с легкостью осуществлять обмен степени сжатия на качество звучания путем изменения разрядности кода отсчетов сигнала и количества эталонных периодов основного тона речи, входящих в состав синтезированного слова.

Предложенным способом можно достаточно легко организовать голосовую почту по сети интернета благодаря простоте обработки и минимальным затратам машинного времени на преобразование сигнала.

Разработан алгоритм распознавания изолированных слов, инвариантный к темпу, громкости, основному тону речи.

Задача сводится к распознаванию звуковых образов. На основе анализа речевого сигнала во временной области, в отличие от ранее используемого частотного, формируются два образа слова. Первый описывает изменение среднего модуля речи на протяжении слова, второй образ отображает закон изменения интенсивности переходов сигнала через нулевой уровень на протяжении слова. Инвариантность к темпу и основному тону речи достигается разбиением всего слова на фиксированное количество отрезков, независимо от его продолжительности. Инвариантность к громкости обеспечивается адаптивным шагом квантования по уровню.

В четвёртой главе рассмотрены адаптивные методы распознавания речевых, музыкальных и гармонических сигналов. Предложено распознавать сигналы на основе анализа структуры сигнала во временной области. Информацию о сигнале несут такие характеристики, как средние модули сигнала и его первой производной на интервале локальной стационарности, законы распределения мгновенных значений сигнала и его первой производной, число переходов через ноль за время анализа, законы распределения интервалов между нулями сигнала и его первой производной.

В технике электросвязи часто возникают задачи распознавания сигналов, перекрывающихся по спектру (речь и музыка в радиовещании, речь и тональная сигнализация в телефонии, сигналы разной формы). Обычно в существующей аппаратуре это разделение реализовано на частотной основе с помощью набора фильтров разного вида. Например, в телефонии в приёмнике линейной сигнализации, принимаемой на фоне речи, используются полосовые и заграждающие фильтры, которые настроены на частоты сигнализации. Если одновременно сигнал на выходе полосового фильтра выше порога приёма, а на выходе заграждающего -ниже, то принимается решение о наличии сигнализации. В противном случае приёмник фиксирует отсутствие тональной сигнализации. Реально такая система имеет низкую помехоустойчивость по целому ряду причин:

- широкие динамические диапазоны уровней речи и сигнализации не позволяют объективно подобрать пороги приёма на выходе фильтров;

- нестабильность частот сигнализации требует завышенной полосы пропускания полосового фильтра, что приводит к росту уровня помех под действием речи;

- высокие женские и детские голоса по спектру близки к сигнализации, что повышает вероятность ложного срабатывания;

- реализация фильтров высокой добротности на низких частотах тональной сигнализации (в России принята двухчастотная 1200, 1600 Гц, а за рубежом - одночастотная 2600 Гц) довольно сложна.

В итоге жёсткие нормы МСЭ-Т G.726 - не более 1 ложного срабатывания за 10 часов непрерывного разговора не выполняются. Ложный прием сигналов типа «отбой» и «разъединение» под действием речи приводит к полному разрушению коммутации и потере связи.

Существующие приёмники используют энергетические параметры в частотной области без учёта различия формы сигналов.

В диссертационной работе предложен алгоритм определения эффективной ширины спектра на основе анализа формы сигнала. Это позволяет адаптивно подбирать оптимальную частоту дискретизации сигнала пропорционально ширине его спектра и осуществлять статистическое уплотнение канала связи. На примере широкополосного цифрового радиовещательного канала показана возможность снижения частоты квантования с 32 кГц (классическая музыка, стереопрограмма) до 16 кГц (вещание) и 8 кГц (речь). В последних вариантах возможно уплотнение канала в 2 и 4 раза. А с учётом пауз эффективность использования канала будет ещё выше. В освободившиеся интервалы времени возможна передача служебной информации или данных.

Научная новизна работы.

В процессе работы получены следующие результаты:

1. Получены новые адаптивные алгоритмы обнаружения сигнализации в составе импульсных случайных потоков в системах цифровой телефонии на основе ИКМ, адаптивной дельта-модуляции (АДМ) и адаптивной дифференциальной ИКМ (АДИКМ).

2. Предложен новый метод распознавания тональной сигнализации в телефонии на фоне речи, основанный на априорной информации о форме сигнала.

3. Предложен простой и эффективный алгоритм сжатия речевого сигнала (до 30 раз) на временной основе для решения задачи при крайне ограниченных возможностях аппаратных средств.

4. Разработан метод распознавания изолированных слов, инвариантный к темпу, громкости и тембру речи.

5. Предложен адаптивный метод определения ширины энергетического широкополосного спектра случайного сигнала на временной основе.

Практическая ценность и реализация результатов работы.

1. На основе новых алгоритмов обнаружения тональной сигнализации в составе импульсных случайных потоков в системах цифровой телефонии с ИКМ, АДИКМ и АДМ, разработаны помехоустойчивые адаптивные групповые приёмники двухчастотных сигналов набора номера в системах сопряжения существующих аналоговых АТС с цифровыми.

2. Используя предложенный метод распознавания тональной сигнализации в телефонии на фоне речи, смоделирован на ПК и разработан адаптивный помехоустойчивый приёмник линейной одно- и двухчастотной сигнализации.

3. С помощью предложенного алгоритма сжатия речевого сигнала удалось добиться сжатия речевого сигнала (до 30 раз) на основе обработки сигнала во временной области. Области применения: цифровые системы хранения речевой информации; повышение скорости передачи сообщений по каналам связи; секретная связь, голосовая почта в сети интернет.

4. Используя метод распознавания изолированных слов, инвариантный к темпу, громкости и тембру речи, можно организовать коммутацию голосом телефонных соединений, ввод команд и данных диктором в ПК или любую другую систему автоматики.

5. На основе предложенного адаптивного метода определения ширины энергетического спектра широкополосного случайного сигнала повышена эффективность системы связи в 2-ь4 раза путём статистического уплотнения широкополосного цифрового канала за счёт адаптации частоты квантования к ширине спектра передаваемого сигнала (речь/вещание/музыка). Система может быть использована в цифровом радиовещании.

На защиту выносятся: алгоритмы работы помехоустойчивых приёмников двухчастотных сигналов набора номера в системах цифровой телефонии на основе нелинейной ИКМ, адаптивной дельта-модуляции (АДМ) и адаптивной дифференциальной ИКМ (АДИКМ); адаптивный метод распознавания сигналов одно- и двухчастотной сигнализации в телефонии на фоне речи; алгоритм сжатия речевого сигнала на временной основе; алгоритм распознавания изолированных слов; методы определения ширины энергетического спектра случайного сигнала на временной основе для адаптивного подбора частоты дискретизации; результаты статистического моделирования и экспериментального исследования предложенных алгоритмов и устройств цифровой обработки сигналов.

Похожие диссертационные работы по специальности «Системы, сети и устройства телекоммуникаций», 05.12.13 шифр ВАК

Заключение диссертации по теме «Системы, сети и устройства телекоммуникаций», Кузнецов, Михаил Владимирович

4.2. ВЫВОДЫ.

На примерах гласных звуков, произносимых женским и мужским голосом, экспериментально получены гистограммы распределений интервалов между соседними нулями речевого сигнала. Проведено их сравнение с гистограммами, соответствующими одночастотной и двухчастотной сигнализации. Сделаны выводы о возможности надежного обнаружения тональных сигналов на фоне речи по характеру распределения интервалов между нулями. Результаты работы могут быть использованы для построения помехоустойчивых приемников линейных сигналов тональной сигнализации в телефонии.

На основе предложенного метода, использующего вместо спектра частот сигнала спектр его интервалов между нулями, можно строить нелинейные цифровые фильтры нижних, верхних частот, полосовые и заграждающие. Подразделив интервалы по длительности на разрешенные и запрещенные, можно надёжно различать сигналы по форме, установив пороги на число разрешенных и запрещенных интервалов, накопленных за время анализа.

На основе предложенного адаптивного метода определения ширины энергетического спектра широкополосного случайного сигнала повышена эффективность системы связи путём статистического уплотнения широкополосного цифрового канала за счёт адаптации частоты квантования к ширине спектра передаваемого сигнала (речь/музыка). Система может быть использована в цифровом радиовещании.

Предложенные методы позволяют значительно повысить достоверность приёма служебной сигнализации, а так же более полно и эффективно использовать существующие каналы связи за счёт устранения избыточности самого передаваемого сигнала.

ЗАКЛЮЧЕНИЕ

По сути своей, диссертационная работа имеет более прикладной характер нежели теоретический. Практическая работа различных устройств автоматической электросвязи выявила ряд проблем, как низкой помехозащищенности, так и резерва избыточности самих передаваемых сигналов. Отступив от привычных и уже достаточно изученных алгоритмов обработки сигналов, в работе предложен ряд совершенно новых решений наиболее актуальных проблем.

В диссертационной работе сформулированы следующие основные результаты исследований:

1. Решены задачи обнаружения гармонической сигнализации в составе импульсных случайных потоков: а) с адаптивной дельта - модуляцией (АДМ), применив «коррекцию» входного потока, которая практически полностью позволяет скомпенсировать нелинейные искажения, вносимые дельта-кодером, что выравнивает АЧХ сигнала и на два порядка улучшает помехозащищенность двухчастотных тональных сигналов набора номера; б) с адаптивной дифференциальной ИКМ (АДИКМ), используя двойной интегратор с переменным коэффициентом деления и адаптивными порогами приёма для каждой частотной составляющей сигнала, что позволяет построить ПМК, полностью удовлетворяющий более жёстким нормам МСЭ-Т для аналоговых устройств; в) с нелинейной ИКМ, поставив на вход ПМК адаптивный преобразователь кода входной 8-разрядной логарифмической ИКМ в 4-разрядную линейную ИКМ, что позволяет сжать динамический диапазон входного сигнала в 64 раза без потери передаваемой информации о тональных частотах, это намного упростило дальнейшую обработку сигнала, что в сумме с адаптивным подбором порогов приёма, учитывающих динамику нарастания отдельно каждой частотной составляющей в коррелометре, позволило получить несложный ПМК, по своим возможностям практически перекрывающий все нормы МСЭ-Т Q.455.

2. Проведено исследование во временной области. Найдены одномерная функция распределения мгновенных значений, корреляционная функция, закон распределения интервалов между нулями сигнала и его первой производной (на примере речи, музыки, гармонической сигнализации, шума). На основе анализа формы сигнала разработаны методы различения речевых и музыкальных сигналов во временной области.

3. Предложен адаптивный метод распознавания сигналов одно- и двухчастотной сигнализации в телефонии на фоне речи.

4. Предложен простой и в то же время достаточно эффективный метод сжатия речевого сигнала на временной основе (примерно в 30 раз), использующий избыточность вокализованных звуков.

5. Разработан метод распознавания изолированных слов, инвариантный к темпу, громкости и тембру речи.

6. Исследована зависимость эффективной ширины спектра сигнала от отношения средних модулей первой производной и сигнала. Предложен способ статистического уплотнения канала связи (в 2+4 раза) за счёт адаптации частоты квантования к ширине спектра передаваемого сигнала.

Все перечисленные разработки позволяют более эффективно использовать существующие каналы связи и имеющееся, незначительно доработанное, станционное оборудование.

Список литературы диссертационного исследования кандидат технических наук Кузнецов, Михаил Владимирович, 2003 год

1. Горелик А.Л., Скрипкин В.А. Методы распознавания. М.: Высшая школа 1984.

2. Мясников Л.Л., Мясникова Е.Н. Автоматическое распознавание звуковых образов. Энергия 1970.

3. Покровский Н.В. Расчет и измерение разборчивости речи. М.: Наука, 1988.

4. Харкевич А.А. Очерки общей теории связи. М.: Гостехиздат, 1955.

5. Вемула Н.Р. Схемы распознавания речи в одной интегральной схеме. Ж. Электроника 1990.

6. Розенберг Р. Прогресс в развитии техники распознавания синтеза речи. Ж. Электроника 1990.

7. Смит К. перспективы создания интегральных схем речевого ввода в Великобритании. Ж. Электроника 1990.

8. Галахер Р.Т. Система распознавания речи. Ж. Электроника 1990.

9. Фланган Дж. Анализ, синтез и восприятие речи. Пер. с англ./под редакцией А.А. Пирогова М.: Связь 1968.

10. Ю.Брунченко А.В., Охинченко Е.П., Седов А.Е. Цифровые обнаружители гармонических составляющих для сигналов с адаптивной дельта-модуляцией. Ж. Электросвязь, 1987, № 10.

11. Брунченко А.В., Седов А.Е. Цифровой приёмник многочастотного кода «2 из 6». Ж. Электросвязь, 1988, №11.

12. Брайнина И.С. Метод построения адаптивных групповых приёмников многочастотного кода «2 из 6» для сигналов с ИКМ. Ж. Электросвязь, 1991, №9.

13. Брайнина И.С. Кузнецов М.В. Адаптивный цифровой групповой приемник сигналов управления и взаимодействия с нелинейной импульсно-кодовой модуляцией (ИКМ). Патент №2143790 РФ, 1999, бюл. №36.

14. Брайнина И.С., Кузнецов М.В., Ротенштейн И.В. Цифровой групповой приёмник сигналов управления и взаимодействия с адаптивной дифференциальной импульсно-кодовой модуляцией. Патент №2103840 РФ, 1998, бюл. №3.

15. Брайнина И.С. Кузнецов М.В. Устройство для распознавания изолированных слов. Патент №2136059 РФ, 1999, бюл. №24.

16. Брайнина И.С. Кузнецов М.В. Способ сжатия изолированных слов. Патент №2180974 РФ, 2002, бюл. №2.

17. Рабинер JI. Р., Шафер Р. В. Цифровая обработка речевых сигналов / пер. с англ. под. ред. М. В. Назарова и Ю. Н. Прохорова. М.: Радио и связь, 1981.-495 с.

18. Гуревич В.Э., Лопушнян Ю.Г., Рабинович Г.В. Импульсно-кодовая модуляция в многоканальной телефонной связи. М.: Связь, 1973.

19. Назаров М. В., Прохоров Ю. Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и связь, 1985. - 176 с.20.0ппенгейм А.В. Цифровая обработка сигналов.: пер. с англ. / Под ред. С.Я. ШатцаМ.: Связь 1979.

20. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. М.: Наука, 1987.

21. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов.- М.: Радио и связь, 1984.

22. Левин Б.Р. Теоретические основы статистической радиотехники. М.: Сов.Радио, 1974.

23. Теория электрической связи: Учебник для вузов. /Под ред. Д.Д. Кловского. М.: Радио и связь, 1998.

24. Чистович Л.А., Венцов А.В. Физиология речи. Восприятие речи человеком. Л.: Наука, 1980.

25. Слепов Н.Н. Синхронные цифровые сети SDH. ЭКО-ТРЕНДЗ. -Москва 1997.-150с.

26. Guberman Shellia "Apparatus system and method for speech compression and decompression". Patent number US6138089, Publication date 24.10.2000.

27. Локшин Б.А. ЦИФРОВОЕ ВЕЩАНИЕ: от студии к телезрителю. М.: Компания САЙРУС СИСТЕМС, 2001.

28. Кузнецов П.И., Стратонович Р.Л., Тихонов В.И. О длительности выбросов случайной функции. ЖТФ, 1954, т.24, вып.1, с. 103-112.

29. Ипьичев В.П. Устройство для распознавания вещательного сигнала. Ж. Электросвязь 1983.

30. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. М.: Радио и связь, 1991.

31. Брайнина И.С. Кузнецов М.В. Цифровые обнаружители гармонических составляющих для сигналов с адаптивной дифференциальной импульсно-кодовой модуляцией (АДИКМ). Материалы НТК ПГАТИ, выпуск № 3, Самара, 1998. с. 18-23.

32. Кузнецов М.В. Об одном методе построения приемников многочастотного кода набора номера для сигналов с АДИКМ. Тезисы доклада НТК ПГАТИ, Самара, 1998.

33. Кузнецов М.В. Эффективный метод сжатия речевых сигналов. Материалы НТК ПГАТИ, выпуск № 5, Самара, 2000. с. 73-75.

34. Кузнецов М.В. Исследование законов распределения интервалов между нулями вокализованной речи. Материалы НТК ПГАТИ, выпуск № 4, Самара, 1999. с. 19-21.

35. Кузнецов М.В. Исследование законов распределения интервалов между нулями клиппированной речи на основе стационарной нелинейной модели. Тезисы доклада НТК ПГАТИ, Самара, 1999.

36. Брайнина И.С Кузнецов М.В. Методы распознавания сигналов одно-и двухчастотной сигнализации в телефонии на фоне речи. 1 Международная научно-техническая конференция стран СНГ «Техника и технология связи», «Вестник связи», Минск, 1999.

37. Кузнецов М.В. Приемники гармонических сигналов управления и взаимодействия в системах цифровой телефонной связи. Санкт-Петербург, 2000.

38. Кузнецов М.В. Метод эффективного сжатия речевых сигналов. Тезисы доклада НТК ПГАТИ, Самара, 2000.

39. Венедиктов М.Д. и др. Дельта-модуляция. Теория и применение. М.: Связь 1976.

40. Стил Р. Принципы дельта-модуляции. Пер. с англ. М.Д. Бенедиктова, под ред. В.В. Маркова. М.: Связь, 1979.

41. Малевич T.J1. Асимптотическая нормальность числа пересечений нулевого уровня гауссовым процессом. Теория вероятностей и её применение. 1969, т. 14, вып.2.

42. Финк JI.M. теория передачи дискретных сообщений. М.: Советское Радио, 1970.

43. Уидроу Б. Стирнз С. Адаптивная обработка сигналов. М.: Радио и связь, 1989.

44. Лебедев А.Н. Моделирование в научно-технических исследованиях. -М.: Радио и связь, 1989. -223с.

45. Громаков Ю.А. Стандарты и системы подвижной радиосвязи. -М.: Мобильные ТелеСистемы Эко-Трендз, 1997. -239с.

46. Блохин В.Г., Глудкин О.П., Гуров А.И., Ханин М.А. Современный эксперимент: подготовка, проведение, анализ результатов. — М.: Радио и связь. 1997.-230с.

47. Пешель М. Моделирование сигналов и систем. Пер. с нем. М.: Мир 1981.-300с.

48. Левин Б.Р., Шварц В. Вероятностные модели и методы в системах связи и управления. -М.: Радио и связь, 1985. 312с.

49. Шелухин О.И. Негауссовские процессы в радиотехнике. М.: Радио и связь, 1999.-287с.

50. Кловский Д.Д., Сойфер В.А. Обработка пространственно-временных сигналов (в каналах передачи информации). М.: Связь, 1976. — 207с.

51. Брайнина И.С. Адаптивная цифровая обработка сигналов связи с использованием прикладной теории выбросов случайных процессов. -М.: Радио и связь, 2002. — 436с.

52. ЗАО "Научно-технический центр "ЦНИИС-ТАНТАЛ"

53. Все ПМК удовлетворяют нормам ОТТ;'g

54. В некоторых режимах ПМК успешно работактшумах, превышающих допуски

55. Разработанные алгоритмы ПМК обеспечивают экономичную реализацию при применении современных сигнальных процессоров.

56. По результатам испытаний принято решение о внедрении ПМК, разработанных в ПГАТИ при участии Кузнецова М.В., в состав оборудования АТС1. ОТТ;

57. С-32С, использующего кодирование АДИКМ, изготавливаемого Днепропетровским механическим заводом совместно с нашим предприятием, для установки на телефонных сетях России.

58. Начальник лаборатории *' В. Г. Угер

59. На основе проведённых испытаний модели ПМК для сигналов ИКМ во всём диапазоне заданных частот, уровней и перекосов уровней двухчастотных сигналов набора номера кодом «2 из 6» установлено:

60. ПМК удовлетворяет нормам ОТТ на городские ЭАТС и Рекомендации МСЭ-Т Q.455.

61. По требующейся вычислительной мощности возможна реализация группового (не менее, чем на 8 каналов) ПМК на простейших сигнальных процессорах.

62. Начальник учебного отдела "Кустова М.Н.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.