Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары тема диссертации и автореферата по ВАК РФ 05.12.04, кандидат технических наук Ятагама Гамаге Даммика Придаршана
- Специальность ВАК РФ05.12.04
- Количество страниц 260
Оглавление диссертации кандидат технических наук Ятагама Гамаге Даммика Придаршана
Список сокращений.
Список условных обозначений.
Введение.
1. СОВРЕМЕННОЕ СОСТОЯНИЕ И ПЕРСПЕКТИВЫ РАЗВИТИЯ МЕТОДОВ КОДИРОВАНИЯ ЗВУКОВЫХ СИГНАЛОВ РАДИОВЕЩАНИЯ И ТЕЛЕВИДЕНИЯ.
1.1. Общие сведения и классификация методов кодирования звуковых сигналов.
1.2.Стандарты кодирования семейства MPEG.
1.2.1. Общие сведения о стандартах семейства MPEG.
1.2.2. Алгоритм кодирования аудиосигналов стандарта MPEG-1 ISO/IEC 11172-3.
1.2.3. Алгоритмы кодирования аудиосигналов стандарта MPEG-2 ISO/IEC 13818-3.
1.2.4. Алгоритм кодирования MPEG-2 ISO/IEC 13818-7 ААС.
1.2.5. Алгоритм кодирования MPEG-4 ISO/IEC FCD 14496-3.
1.3. Кодирования звуковых сигналов в системе Dolby АС-3.
1.4. Энтропийное кодирование.
1.5. Особенности психоакустических моделей алгоритмов кодирования с компрессией цифровых аудиоданных.
1.5.1. Психоакустическая модель 1 стандарта MPEG ISO/IEC 11172-3.
1.5.2. Психоакустическая модель 2 стандарта ISO/IEC 11172-3.
1.5.3. Особенности психоакустической модели системы кодирования Dolby АС-3.
1.6. Качество кодеков с компрессией цифровых аудиоданных
1.7. Проблемы при разработке кодеков с компрессией цифровых аудиоданных.
1.8. Постановка задачи и цель диссертационной работы.
2. РАЗРАБОТКА СТРУКТУРНОЙ СХЕМЫ И УТОЧНЕНИЕ АЛГОРИТМА РАБОТЫ ЭКСПЕРИМЕНТАЛЬНОЙ УСТАНОВКИ.
2.1. Разработка и обоснование структурной схемы экспериментальной установки.
2.2. Временная и частотная сегментации звукового сигнала.
2.3. Психоакустическая энтропия звукового сигнала.
2.4. Психоакустические модели экспериментальной установки.
2.4.1. Расчет спектра выборки звукового сигнала.
2.4.2. Расчет глобального порога маскировки или отношения сигнал-маска.
2.5. Объединение сигналов стереопары при кодировании.
2.5.1. Психоакустические основы процедуры объединения сигналов стереопары.
2.5.2. Алгоритмы объединения сигналов стереопары в стандартах МРЕв и А52.
Выводы по главе 2.
3. РАЗРАБОТКА ПРОГРАМНОЙ МОДЕЛИ И ИНТЕРФЕЙСА ИССЛЕДОВАТЕЛЬСКОЙ УСТАНОВКИ.
3.1. Обобщенная структурная схема программной модели.
3.2. Обобщенная структурная схема психоакустической модели.
3.3. Блок гибридного полифазного банка фильтров.
3.4. Блок неравномерного квантования и кодирования.
3.5. Декодер.
3.6. Блок формирования стерео WAV файлов.
3.7. Блок объединения сигналов стереопары.
3.8. Блок считывания заголовок wav-файла.
3.9. Интерфейс экспериментальной установки.
3.10. Интерфейс для субъективной оценки качества звучания.
Выводы по главе 3.
РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ.
4.1. Программа исследований.
4.2. Общие сведения о процедуре проведения эксперимента.
4.3. Психоакустическая энтропия сигнала и требуемое для кодирования количество бит.
4.4. Битовый резервуар.
4.4.1. Контроль объема битового резервуара в системе кодирования MPEG-1 ISO/IEC 11172-3 Layer 3.
4.4.2. Максимально допустимый объем битового резервуара и буфера в системе кодирования MPEG-1 ISO/IEC 11172-3 Layer
4.5. Предельные значения психоакустической энтропии в зависимости от полосы частот звукового сигнала и частоты дискретизации.
4.6. Расчет числа бит, требуемого психоакустической моделью в полосах психоакустического анализа Ь, полосах кодирования п и их фактическое распределение при кодировании звукового сигнала.
4.6.1. Расчет требуемого числа бит в полосах психоакустического анализа b на основе отношения сигнал-шум, SNRb.
4.6.2. Расчет требуемого количества бит в полосах психоакустического анализа b на основе учета психоакустической энтропии.
4.6.3. Расчет требуемого количества бит в полосах кодирования п на основе учета психоакустической энтропии.
4.6.4. Расчет психоакустической моделью требуемого количества бит для каждого аудиофрейма.
4.6.5. Расчет коэффициента корреляции левого и правого сигналов стереопары.
4.6.6. Фактически потраченное количество бит до и после объединения сигналов стереопары.
4.7. Субъективная оценка качества звучания объединенного сигнала стереопары.
4.8. Представление итоговых результатов, выполненных в работе экспериментальных исследований.
Выводы по главе 4.
Рекомендованный список диссертаций по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК
Повышение эффективности алгоритмов компрессии цифровых аудиоданных на основе учета временной маскировки2007 год, кандидат технических наук Зырянов, Максим Викторович
Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных2007 год, кандидат технических наук Стефанова, Ирина Алексеевна
Разработка и исследование метода объективной оценки качества кодеков с компрессией цифровых аудиоданных2007 год, кандидат технических наук Иванов, Андрей Сергеевич
Повышение эффективности кодирования коэффициентов вейвлетного преобразования в кодеках с компрессией цифровых аудиоданных2017 год, кандидат наук Фадеев, Даниил Романович
Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка2005 год, кандидат технических наук Хаджинов, Александр Александрович
Введение диссертации (часть автореферата) на тему «Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары»
Представление высококачественных звуковых сигналов в цифровой форме широко используется в телекоммуникационных системах радиовещания, телевидения, в системах записи и воспроизведения звука, при реставрации старых записей с целью повышения их качества, при создании новых необычных видов звучаний, в MULTIMEDIA - приложениях, в системах виртуальной реальности.
При первичном кодировании звуковых сигналов применяется равномерное квантование с разрешением 16.24 бит/отсчет и частоте дискретизации 44,1, 48,., 192 кГц. Полоса частот кодируемого сигнала составляет 20.20000 Гц, а его динамический диапазон не более 40 дБ. Наиболее высокое качество звучания обеспечивают звуковые форматы 3/2, 5.1 и система воспроизведения типа "трапеция" (PeK.ITU-R 775). При первичном кодировании стереофонических сигналов суммарная скорость цифрового потока оказывается достаточно большой, особенно при форматах 3/2 и 5.1. Вследствие ограниченной пропускной способности каналов связи, особое значение приобретают методы их обработки с целью компрессии цифровых аудиоданных после первичного линейного кодирования. Все эти методы компрессии основаны на учете характеристик, как самого сигнала, так и слуха, в частности, таких его феноменов как маскировка, предмаскировка, и постмаскировка. С этой точки зрения наиболее эффективными являются методы кодирования группы MPEG (стандарты ISO/IEC 11172-3, 13818-3, 13818-7, 14496-3), ATRAC, ASPEC, apt=X100 и Dolby АС-3 (А/52).
Компрессия цифровых аудиоданных при малой скорости цифрового потока неизбежно сопровождается искажениями, например, при использовании метода MUSIC AM (ISO/IEC 11172-3 Layer 2) стереопанорама становится более плоской, исчезают звуковые планы, кажущиеся источники звука смещаются относительно их истинного положения, теряются индивидуальные признаки звучания, свойственные одиночным инструментам в группе, нарушается реверберационный фон каждого из них, возникает ощущение того, что отдельные инструменты записаны в помещениях с разными акустическими свойствами. Эти искажения заметны на слух уже при скорости передачи 128 кбит/с на канал (MPEG-1 ISO/IEC 11172-3 Layer 2) и 64 кбит/с (MPEG-1 ISO/IEC 11172-3 Layer 3).
Скорость цифрового потока на выходе кодера с компрессией цифровых аудиоданных обычно лежит в пределах 64.256 кбит/с на канал. С целью ее дальнейшего уменьшения в алгоритмах компрессии MPEG ISO/IEC 11172-3, ISO/IEC 13818-3 и 13818-7 ААС, а также и Dolby АС-3 (А/52) рекомендуется использовать дополнительно режим объединения сигналов стереопары («Joint Stereo»). Однако его применение на практике затруднено отсутствием критериев, при которых это объединение сигналов стереопары эффективно. Известно лишь, что при работе кодека в данном режиме могут появляться искажения в восстановленном сигнале, связанные не только с передачей пространственной информации.
Изложенное подтверждает, что изучение проблемы объединения сигналов стереопары с целью повышения эффективности алгоритмов их компрессии является актуальной научной задачей, востребованной в теории и на практике.
Проблемам компрессии цифровых аудиоданных с устранением избыточности посвящены работы ученых Scott N. Levine, Е. F. Schroeder, W. Voessing, J. Johnston, K. Brandenburg, E. Zwicker, M. Schroeder, N. Jayant, Ю. А. Ковалгина, A.M. Синильникова, A.C. Грудинина, B.A. Леонова, С. Г. Рихтера и других. Оценка качества звучания компрессированных сигналов рассмотрена в работах Gilbert A. Soulodre, Theorder Grusec, Michel Lavoie, Louis Thibault, J. Johnston.
Цель и основные задачи работы. Целью работы является оценка эффективности процедуры объединения сигналов стереопары, а также исследование того, при каких условиях и каким образом процедура объединения сигналов стереопары должна выполняться; насколько при этом возрастает сложность алгоритма компрессии и как изменяется качество кодированного сигнала с уменьшением скорости его передачи.
Для достижения поставленной цели необходимо:
1. Провести аналитический обзор существующих методов кодирования звуковых сигналов (ЗС) с компрессией цифровых данных; изучить международные стандарты и рекомендации, относящиеся к данной проблеме; детально по шагам исследовать алгоритмы и процедуры обработки ЗС, реализованные в системах кодирования с компрессией цифровых аудиоданных, включая и процедуры объединения сигналов стереопары; сформулировать требования, предъявляемые к отдельным блокам кодера;
2. Разработать алгоритм объединения сигналов стереопары, представить его в форме математической модели, в процессе исследований выбрать и уточнить критерии объединения сигналов стереопары в субполосах кодирования;
3. Разработать структурную схему исследовательской установки, позволяющей проводить исследования и оценку эффективности алгоритмов компрессии и качества кодированных ЗС, необходимые для достижения конечной цели, поставленной в данной работе;
4. Реализовать на базе программную модель исследовательской установки для проведения экспериментальных исследований, разработать удобный интерфейс, сформулировать и обосновать собственно программу экспериментальных исследований;
5. В соответствии с разработанной программой, с помощью данной установки^ исследовать реальные фрагменты ЗС, результаты вычислений записать в виде файлов, необходимых для дальнейших вычислений, создать тест-фонограммы для оценки качества кодированных сигналов путем проведения соответствующих субъективно-статистических экспертиз;
6. Массивы экспериментальных данных, полученные при проведении экспериментальных исследований, обработать с применением методов математической статистики и далее для удобства последующего анализа представить графически.
7. Оценить качество кодированных сигналов методом парных сравнений.
Методы проведения исследований. Для решения поставленных задач использовались методы цифровой обработки звуковых сигналов, имитационного моделирования с применением средств С++, MathCAD, Visual Basic, математической статистики и субъективно-статистических экспертиз.
Научная новизна и новые полученные результаты диссертационной работы заключается в следующем:
1. Исследование алгоритмов компрессии цифровых данных показывает, что используемые здесь процедуры и лежащие в их основе психоакустические модели не в полной мере отражают процессы обработки стереофонических сигналов в слуховой системе человека, не учитывают механизмы временной маскировки и, что более важно, бинауральной демаскировки звуковых образов, играющие значительную роль при слуховом восприятии; все это снижает эффективность их применения;
2. Разработана психоакустическая модель, которая является ключевой частью в любой системе кодирования с компрессией цифровых аудиоданных. Она состоит из ряда модулей, имеет гибкую, легко изменяемую структуру, включает в себя большинство существующих процедур психоакустического анализа. На ее основе может быть реализована любая базовая психоакустическая модель алгоритмов кодирования стандартов MPEG. Ряд процедур, реализуемых в этих моделях, уточнен автором с учетом результатов новейших исследований, дано полное математическое описание психоакустической модели, предложенной автором работы.
3. Разработана блочно-модульная структура и на ее основе программная модель экспериментальной установки, предназначенной для исследования алгоритмов компрессии цифровых аудиоданных. Она содержит все базовые блоки: банк фильтров, психоакустическую модель, блок квантования и кодирования, блок распределения бит, блок формирования цифрового потока.
Программная модель исследовательской установки протестирована с использованием реальных стереофонических музыкальных сигналов.
4. Предложены и обоснованы критерии объединения субполосных сигналов стереопары при их кодировании; разработаны метод оценки эффективности введения данной процедуры, а также интерфейс, необходимый для исследования алгоритмов компрессии цифровых аудиоданных и для создания тест-фонограмм, предназначенных для оценки качества эталонного и кодированного звуковых сигналов методом парных сравнений.
5. С помощью реализованной в работе исследовательской установки обработано 5 отрывков реальных ЗС разных жанров с длительностью звучания от 8 до 20,5 с. Каждый отрывок подвергнут исследованию в разных условиях объединения сигналов стереопары. Все результаты вычислений записаны в виде файлов в определенных директориях. На основе статистической обработки полученных массивов экспериментальных данных получено множество зависимостей, необходимых для последующего анализа.
5. Доказано, что объединение субполосных сигналов стереопары при их кодировании позволяет дополнительно снизить скорость цифрового потока на 5-10 % по сравнению со значением, начиная с которого искажения, вызванные компрессией цифровых данных, становятся заметными на слух; в среднем это составляет около 10. 15 кбит/с на канал.
6. Определены границы частот, начиная с которых можно начинать объедение сигналов стереопары.
Практическая значимость работы заключается в следующем:
1. Разработаны критерии, методы и программа исследований, позволяющие всесторонне оценить эффективность объединения субполосных сигналов стереопары при их кодировании, а также определить величину дополнительного снижения скорости цифрового потока за счет ее введения;
2. Разработаны программная модель и интерфейс исследовательской установки, форматы представления массивов входных и выходных данных, входящих в ее состав блоков. Это позволяет проводить всесторонние исследования алгоритмов компрессии цифровых аудиоданных на реальных звуковых сигналах, обрабатывать получаемые с ее помощью данные, используя для этой цели стандартные пакеты программ прикладной статистики. Исследовательскую установку можно использовать также и в учебном процессе. Ее использование позволяет не только выполнять широкий круг исследований алгоритмов компрессии цифровых данных, но найти компромиссное решение между эффективностью и качеством объединяемых сигналов стереопары. В результате чего, можно грамотно выбрать частотные границы объединения сигналов стереопары.
3. Найдено требуемое для прозрачного кодирования количество бит в разных субполосах и установлено, что для звуковых сигналов всех жанров существуют четкие границы требуемого количества бит, приходящееся на один коэффициент МДКП. При этом в области частот 0.700Гц это значение лежит в пределах от 8 до 10 бит; в области от 700.3500 Гц оно составляет уже от 2.4 бита, а в области частот выше 3500 Гц оно не превышает 1.2 бит.
4. Правильность предложенных в работе критериев объединения сигналов стереопары подтверждена субъективно-статистическими экспертизами; эффективность введения этой процедуры оценена на реальных звуковых сигналах, сформулированы условия ее применения.
Внедрение результатов исследований. Результаты исследований использованы в ЛОНИИС при разработке и исследовании кодеков с компрессией цифровых аудиоданных, а также в учебном процессе СПбГУТ при подготовке инженеров по специальностям 201100- Радиосвязь, радиовещание и телевидение и 2014400- Аудиовизуальная техника, что подтверждено соответствующими актами внедрения.
Положениями, выносимыми на защиту, являются:
1. Разработанные в рамках данной работы блочно-модульная структура исследовательской установки, реализованная на ее основе программная модель и интерфейс достаточны для детального исследования алгоритмов компрессии цифровых аудиоданных. Предусмотренные в ней возможности для хранения, последующего анализа и обработки теоретических и экспериментальных данных позволяют на ее основе проводить множество исследований, в том числе и всестороннюю оценку эффективности процедуры объединения субполосных сигналов стереопары.
2. Оценка коэффициента корреляции субполосных сигналов, учет механизмов пространственного слуха человека и распределения энергии звуковых сигналов по частоте - это основа для разработки критериев объединения субполосных сигналов стереопары при их кодировании.
3. Оценка эффективности процедуры объединения сигналов стереопары подтверждает, что когда ресурсы других методов снижения скорости цифрового потока уже исчерпаны, режим объединения позволяет дополнительно снизить скорость цифрового потока в среднем на 5-7% от установленного исходного значения. Это выполняется при условиях, когда объединяются субполосные составляющие сигналов стереопары ниже 215 Гц и выше 10465 Гц для длинных блоков и выше 11025 Гц для коротких блоков, а также и те субполосы, где коэффициент взаимной корреляции превышает пороговое значение.
4. Требуемое для кодирования количество бит, приходящееся на один коэффициент МДКП, в среднем составляет от 8 до 10 бит до частоты 0,7 кГц, от 2 до 4 бит в частотном диапазоне от 0,7 до 3,5 кГц, от 1 до 2 бит на частотах выше 3,7 кГц.
Апробация результатов работы и публикации. Результаты, полученные в ходе исследований, докладывались и обсуждались на научно-технических конференциях (НТК) профессорско-преподавательского состава СПбГУТ им. проф. Бонч-Бруевича в Санкт-Петербурге, на МНТК в Одессе (Украина, 2001) а также они были представлены в виде стендового доклада на 21-ой межрегиональной конференции международного общества аудиоинженеров (АЕБ, г. Санкт-Петербург, 2002).
По тематике диссертационной работы опубликовано 8 печатных работ, включая 6 публикаций в виде тезисов докладов и 2 статьи в сборниках трудов международных научно-технических конференций.
Структура и объем работы. Работа состоит из введения, четырех глав, заключения, списка принятых сокращений, списка принятых обозначений, списка литературы и трех приложений. Глава 1 является вводной. В ней кратко рассмотрены общие сведения и классификация методов кодирования звуковых сигналов, как традиционные так и новейшие методы кодирования ЗС; изложены сведения о существующих стандартах семейства MPEG (MPEG-1 ISO/IEC 11172-3, MPEG-2 ISO/IEC 13818-3, MPEG-2 ISO/IEC 13818-7 ААС, MPEG-4 ISOAEC FCD 14496-3) и ATSC Dolby АС-3 (А/52); рассмотрены психоакустические модели алгоритмов кодирования с компрессией цифровых аудиоданных; представлена оценка качества кодеков с компрессией цифровых данных, сформулированы основные проблемы, возникающие при их разработке, а также цель и задачи данного исследования. Глава 2 посвящена разработке структурной схемы и алгоритма работы экспериментальной установки. Здесь сформулированы требования к экспериментальной установке и разработана ее структурная схема. Глава 3 включает себя разработку программной модели и интерфейса исследовательской установки. В главе 4 рассматривается анализ и обработка результатов исследований, а так же условия проведения эксперимента и обработка результатов, получены предварительные результаты субъективной оценки качества звучания объединенного сигнала стереопары; итоговые результаты расчетов представлены в виде графиков.
Работа содержит 260 листов, в том числе 226 листов основного текста, 58 рисунков, 23 таблиц, 128 формул. В списке литературы 102 наименований. Приложения 1 и 2 размещены на 34 страницах, а приложения 3 - на компакт-диске, прилагаемом к работе.
Похожие диссертационные работы по специальности «Радиотехника, в том числе системы и устройства телевидения», 05.12.04 шифр ВАК
Разработка и исследование усовершенствованного метода компрессии звуковых данных в мультимедийных системах1999 год, кандидат технических наук Крашовац, Игорь Юльевич
Повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слухового анализатора человека2009 год, кандидат технических наук Стефанов, Михаил Александрович
Разработка и исследование методов передачи стереотелевизионных сигналов по каналам со сжатием цифрового потока2006 год, кандидат технических наук Аносов, Александр Владимирович
Перцепционное сжатие звука с использованием вейвлетных пакетов2010 год, кандидат технических наук Рогозинский, Глеб Гендрихович
Разработка методов и алгоритмов повышенной компрессии аудиосигналов, закодированных на основе оптимизированных дельта-преобразований второго порядка2010 год, кандидат технических наук Каграманянц, Виктор Александрович
Заключение диссертации по теме «Радиотехника, в том числе системы и устройства телевидения», Ятагама Гамаге Даммика Придаршана
Основные результаты диссертационной работы заключаются в следующем:
1. Проведен обзор публикаций по существующим методам кодирования с устранением статистической и психоакустической избыточности звукового сигнала. На основании проведенного обзорного анализа всех существующих современных методов кодирования сформирована тема и объект исследования настоящей диссертационной работы.
2. Разработана блочно-модульная структурная схема исследовательской установки, на ее основе реализованы программная модель и интерфейс на базе ПЭВМ, позволяющие проводить детальные исследования алгоритмов компрессии цифровых аудиоданных на реальных звуковых сигналах, включая и оценку эффективности процедуры объединения субполосных составляющих сигналов стереопары при их кодировании и субъективно-статистические экспертизы при оценке качества кодированных сигналов.
3. Предложен критерий объединения сигналов стереопары при их кодировании, в основе которого лежит оценка величины коэффициента корреляции субполосных составляющих, а также учет механизмов пространственного слуха человека и распределения энергии звукового сигнала по частоте.
4. С помощью исследовательской установки проведена обработка отрывков ЗС разных основных жанров (симфонический оркестр, одиночный духовой инструмент, эстрадная музыка, квартет, дикторская речь) с длительностью звучания 8,8.20,5 с при трех значениях скорости цифрового потока равных 128, 96, 64 кбит/с на канал. Анализ полученных в результате этого исследования экспериментальных данных позволяет сделать следующие выводы: а) требуемое психоакустической моделью для прозрачного кодирования гранулы число бит не зависит от скорости цифрового потока, ибо значение психоакустической энтропии для каждого из отрывков зависит только от структуры самого звукового сигнала. При низких скоростях передачи (64 кбит/с на канал и ниже), когда число бит для кодирования явно недостаточно, неизбежно возникают искажения восстановленного сигнала и качество сигнала подвергнутого кодированию при его восприятии ухудшается; б) снижение скорости цифрового потока при объединении субполосных составляющих сигналов стереопары сильно зависит от степени корреляции левого и правого сигналов стереопары в субполосах кодирования, от выбранных значений верхних и нижних границ объединяемых субполос и} конечно, от структуры самого звукового сигнала (жанра); в) при объединении сигналов стереопары на частотах ниже 215 Гц и выше 10465 Гц для длинных блоков и выше 11025 Гц для коротких блоков среднее значение снижения скорости цифрового потока составляет 2,8% без учета корреляции, а с ее учетом - 12,8 % при установленной скорости цифрового потока 128 кбит/с на канал. При скорости цифрового потока равной 96 кбит/с на канал, эти значения соответственно равняются 0,4% и 7,2 %. Следовательно, при данном значении скорости цифрового потока доступное для кодирования число бит уже лежит ниже или вблизи требуемого значения; г) при установленной скорости цифрового потока равной 64 кбит/с на канал применения режима объединении сигналов стереопары для большинства стереофонических музыкальных сигналов является не эффективным и приводит лишь к искажению сигнала. Это объясняется, прежде всего, тем, что при данной скорости доступное для кодирования количество бит уже существенно ниже требуемого психоакустической моделью даже при условии объединения ряда субполосных составляющих; д) требуемое для кодирования количество бит, приходящееся на один коэффициент МДКП для реальных звуковых сигналов разных жанров, в среднем составляет от 8 до 10 бит до частоты 0,7 кГц, от 2 до 4 бит в частотном диапазоне от 0,7 до 3,5 кГц, от 1 до 2 бит на частотах выше 3,7 кГц; е) результаты субъективной оценки качества звукового сигнала при разных режимах его кодирования подтверждают, что:
-при установленных скоростях цифрового потока равных 128 и 96 кбит/с объединение сигналов стереопары на частотах ниже 215 Гц и выше 6847 Гц для длинных блоков и выше 6890 Гц для коротких блоков не приводит к заметным на слух искажениям, но дает вполне определенный выигрыш в скорости цифрового потока;
-дальнейшее увеличение числа объединяемых субполос кодирования в данном случае дает снижение скорости цифрового потока, но качество восприятия кодированного звукового сигнала при этом ухудшается;
-при скорости цифрового потока равной 64 кбит/с применение процедуры объединения не достаточно для улучшения качества кодированного сигнала.
5. Программная модель исследовательской установки разработана в блочномодульном виде, где каждый блок имеет свой набор входных и выходных массивов данных. Это удобно для проведения детальных исследований алгоритмов компрессии цифровых аудиоданных, а также и для ее развития путем дополнения новыми модулями. Кроме того, такое блочно-модульное ее построение удобно и полезно для учебного процесса при изучении студентами специальностей 201100 — Радиосвязь, радиовещание и телевидение и 201400 — при изучении
Аудиовизуальная техника, а также и аспирантами^современных алгоритмов компрессии цифровых звуковых сигналов.
ЗАКЛЮЧЕНИЕ
Список литературы диссертационного исследования кандидат технических наук Ятагама Гамаге Даммика Придаршана, 2005 год
1. Радиовещание и Электроакустика: Учебник для вузов / А.В. Выходец, М.В. Гитлиц, Ю.А. Ковалгин и др.; Под ред. М.В. Гитлица. М.: Радио и Связь, 1989.
2. Ковалгин Ю.А. Стереофония. М.: Радио и Связь, 1989.
3. Оппенгейм А.В., Шафер Р. В. Цифровая Обработка Сигналов / Пер. с англ. В.А Лексаченко, В.Г. Челланова; Под ред. С.Я. Шаца. М.: Связь, 1979.
4. Рабинер J1.P. , Шафер Р.В. Цифровая Обработка Речевых Сигналов / Пер. с англ. М.В. Назарова, Ю.Н. Прохорова.- М.: Радио и Связь, 1981.
5. Звуковое вещание /А.В. Выходец, П.М. Жмурин, И.Ф. Зорин и др.; Под ред. Ю.А. Ковалгина: Справочник М.: Радио и Связь, 1993.
6. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации (Второе переработ, и доп. изд.) Пер.с нем. Под ред Б.Г. Белкина М., М.: Связь, 1971.
7. Отчет по научно- исследовательской работе 1 Фундаментальные аспекты новых информационных и ресурсосберегающих технологий' .: СПбГУТ, 1997.2000.
8. Neil Gilchrist , Christer Grewin,: Collected Papers on Digital Audio bit Rate Reduction. Audio Engineering Society, Inc. USA 1996.
9. J. Audio Eng. Sos., Vol. 45 , No. 1/2, 1997 January / February.
10. Блейхут P. Теория и практика кодов, контролирующих ошибки: /Пер.с анг. И.И. Грушко, В.М. Блиновского; Под. ред. К.Ш. Зигангирова. М.: Мир, 1986.
11. Применение цифровой обработки сигналов. /Под ред. Э. Оппенгейма; Пер. англ. Под ред. A.M. Рязанцева. М.: Мир, 1980.
12. J. Audio Engineering Society., Vol. 45, No. 10 , 1997 October.
13. И.М. Дворецкий, И.Н. Дриацкий. Цифровая передача сигналов звукового вещания. -М.: Радио и Связь, 1987.
14. Гуревич В.Э., Лопушнян Ю.Г., Рабинович Г.В. Импульсно-кодовая модуляция в многоканальной телефонной связи. М.: Связь , 1973 .-336 с.
15. Yair Shoham, Allen Gersho, 'Efficient Bit Allocation for an Arbitrary Set of Quantizers, 'IEEE Translation on acoustics, speech, and signal processing, vol. 36 No. 9, September 1988 (ст. 1445 1453 ).
16. Raymond N.J. Veldhusis, Bit Rates in Audio Source Coding,; IEEE Journal on Selected Areas in Communications.Vol. 10, No.l January 1992 (ст. 86 96 ).
17. Larry E. Humes, Walt Jesteadt, Models of the additivity of masking., Acoustical Society of Amarica, 1989 (page 1285-1295).
18. ITU Radiocommunication Study Groups. Document 10-4/19-E : Method for objective measurements of perceived audio quality, 16 March 1998/.
19. ISO/JTC/1/SC 29 N2203: Information Technology -Very Low Bitrate Audio-Visual Coding, Part 3: Audio, ISO/IEC 14496-3 Subpart 1, 1998.
20. B.Fox , ~ Discrete optimization via marginal analysis, Manage. Sei., vol.13, No. 3 , pp.210-216, Nov 1966.
21. Лухин C.H. "Visual Basic Самоучитель для начинающих ". M.: "Диалог-МИФИ", 2001.-544 с.
22. ISO/IEC, International Standard 11172-3: «Information technology- coding of moving pictures and associated audio for digital storage media up to about 1.5 Mb/s", Part 3, ISO/IEC JTSC1/SC29/WG11, Geneva, Switzerland, 1993.
23. Karlheinz Brandenburg, Marina Bosi, Overview of MPEG Audio: Current and Future Standards for Low-Bit Rate Audio Coding. J. Audio Eng. Sos., Vol.45,No. 1/2, 1997 January/February.
24. Радиовещание и Электроакустика: Учебник для вузов / Авт.: С.И. Алябьев, A.B. Выходец, Р. Гермер и др.; Под ред. Ю.А. Ковалгина. М.: Радио и Связь, 1998.
25. John G. Beerends, Jan A. Stemerdink,: J. Audio Engineering Society., Vol. 40, No. 12 , 1992 December.
26. ISO/IEC, International Standard 13818-3: "Information technology- coding of moving pictures and associated audio information", Part 3: Audio, ISO/IEC 13818-3,1995(E).
27. ISO/IEC JTC1 /SC29/WGil. Coding of moving pictures and audio, N1200, March 1996, (MPEG-2 Audio NBC (13818-7) Working Draft 1.0,1997).
28. Document A/52. Digital Audio Compression (AC-3), ATSC
29. Robust Coding of High Quality Audio Signals: Jürgen Koller, Thomas Sporer, Lehrstuhl fur Technische Elektronik Universität Erlangen- Nürnberg,Germany.
30. Eli shoval, Meir Feder: Audio Compression using Entropy Coded Dithered Quantization; Tel Aviv University, Tel Aviv, Israel.
31. Chi-Min, Wen-Chieh Lee: A Unified Fast Algorithm for Cosine Modulated Filter Banks in Current Audio Coding Standards; Department and Institute of Computer Science and Information Engineering, National Chiao Tung University, Hsinchu, 30050, Taiwan.
32. Gilbert A. Soulodre, Theorder Grusec, Michel Lavoie, and Louis Thibault: Subjective Evaluation of State-of-the-Art Two-Channel Audio Codecs. J. Audio Eng. Sos. , Vol.46,No. 6, 1998 March.
33. Ted Painter, Andreas Spanians: A Review of Algorithms for Preceptual Coding of Digital Audio Signals, spanias@asu.edu, painter@asu.edu.
34. Макаров АЛ. Введение в теорию кодирования. М.: Наука, 1982, 192с.
35. Принципы цифровой связи и кодирования. / А.Д. Витерби, Дж.К. Омура: Пер. с англ. под ред. К.Ш. Зигангирова.- М.: Радио и связь, 1982,-535 с.
36. Zelinsky R., Noll P. Adaptive transform coding of speech signals. IEEE. Trans. Acoust., Speach, Signals Processing,Vol.ASSP-25, Aug. 1977, p.p. 299-309.
37. EBU, «Basic Audio Quality Requirements for Digital Audio Bit Rate Reduction Systems for Broadcast Emission and Primary Distribution, » CCIR Doc. 10-2/3(1991 Oct.28).
38. L. Solbach Robsut Partical Tracking and Onset Localization in Signal Channel Audio Signal Mixer: http://www.tu-harburg.de/ti6/pub/diss/soIbach/index.hml
39. M. Goodwin Adaptive Signal Models. Theary, Algorithms and Audio Applications. http://ptolem.eecs.berkeley.edu/papers/97.mgoodwinthesis.
40. International Electrotechnical Commission/ American National Standards Institute (1EC/ANSI) CEI-IEC-908, "Compact Disc Digital AUDIO System"("red book"), 1987.
41. C.Tood, "A Digital Audio System for Broadcast and Prerecorded Media, " in Proc.75th Conv. Aud. Eng. Soc., preprint #, Mar. 1984.
42. E. F. Schroder and W. Voessing, "High Quality Digital Audio Encoding with 3.0 Bits/Sample using Adaptive Transform Coding, " in Proc. 80th Conv. Aud. Eng. Soc. Preprint # 2321, Mar. 1986.
43. G. Theile, et al., "Low-Bit Rate Coding of High Quality Audio Signals,"in Proc. 82nd Conv. Aud. Eng. Soc. Preprint # 2432, Mar. 1987.
44. K. Brandenburg, "OCF-A New Coding Algorithm for High Quality Sound Signals," in Prog. ICASSP-87, pp. 5.1.1-5.1.4,May 1987.
45. J. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria," IEEE J. Sel. Areas in Comm., pp. 314-323, Feb. 1988.
46. W-Y Chan and A. Gersho, "High Fidelity Audio Transform Coding with Vector Quantization," in Proc. ICASSP-90, pp. 1109-1112, May 1990.
47. K. Brandenburg and J.D. Johnston,"Second Generation Perceptual Audio Coding: The Hybrid Coder," in Proc. 88th Conv. Aud. Eng. Soc., preprint #2937, Mar. 1990.
48. K. Brandenburg, et al., "ASPEC: Adaptive Spectral Entropy Coding of High Quality Music Signals," in Proc. 90th Conv. Aud. Eng. Soc. Preprint#3011, Feb. 1991.
49. Y.F.Dehery, et al., "A MUSICAM Source Codec for Digital Audio Broadcasting and Storage,"in Proc. ICASSP-91, pp.3605-3608, May 1991.
50. MJwadare, et al., "A 128 kb/s Hi-Fi Audio CODEC Based on Adaptive Block Size MDCT," IEEE J.Sel. Areas in Comm., pp.138-144, Jan.1992.
51. K. Brandenburg et al., "ISO-MPEG-1 Audio: A Generic Standard for Coding of High-Quality Digital Audio," J. Audio Eng. Soc., pp.780-792, Oct. 1994.
52. G.Stoll, et al., "Generic Architecture of the ISO/MPEG Audio Layer I and II: Compatible Developments to Improve the Quality and Addition of New Features," in Proc. 95th Conv. Aud. Eng. Soc., preprint #3697, Oct. 1993.
53. J.B. Rault, et al., "MUSICAM (ISO/MPEG Audio) Very Low Bit-Rate Coding at Reduced Sampling Frequency."in Proc. 95th Conv. Aud. Eng. Soc., preprint#3741, Oct. 1993.
54. G. Stoll, et al., Extension of ISO/MPEG-Audio Layer II to Multi-Channel Coding: The Future Standard for Broadcasting, Telecommunication, and Multimedia Applications,"in Proc. 94th Conv. Aud. Eng. Soc., preprint#3550, Mar. 1993.
55. J.D. Johnston, et al., "the AT & T Perceptual Audio Coder (PAC), "Presented at the AES convention, New Yore, Oct., 1995.
56. ISO/IEC JTC1 /SC29/WG11 MPEG, 1S11172-3 "Information Technology-Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to About 1.5 Mbit/s, Part 3: Audio" 1992. ("MPEG-1").
57. ISO/IES JTC1/SC29/WG11 MPEG, IS13818-3 "Information -Technology-Generic Coding of Moving Pictures and Associated Audio, Part 3: Audio" 1994.(MPEG-2").
58. F. Wylie, "Predictive or Perceptual Coding. apt-X and Apt-Q," in Proc. 100th Conv. Aud. Eng. Soc., preprint#4200, May 1996.
59. P. Craven and M. Gerzon, "Lossless Coding for Audio Discs, " J. Audio Eng. Soc., pp., 706-720, Sep. 1996.
60. J. R. Stuart, "a Proposal for the High- Quality Audio Application of High-Density CD Carriers, "Technical Subcommittee Acoustic Renaissance for Audio, http://www.meridian.co.uk/ara/araconta.html, pp. 1-26, Jun.1995.
61. NJayant, et at., "Coding of Wideband Speech," Speech Comm., pp.127-138, Jun. 1992.
62. NJayant, "High Quality Coding of Telephone Speech and Wideband Audio," in Advances in Speech Signal Processing, S. Furui and m. M. Sondhi, Eds., New York: Dekker1 1992.
63. J. Johnston and K. Brandenburg, "Wideband Coding Perceptual Considerations for Speech and Music," in Advances in Speech Signal Processing, S. Furui and M.M. Sondhi, Eds., New York: Dekker, 1992.
64. N. Javant, et at., "Signal Compression Based ON Models of Human Perception," Proc. IEEE, pp.1385-1422, Oct. 1993.
65. P. Noll, "Wideband Speech and Audio Coding, " IEEE Comm. Mag., pp.34-44, Nov. 1993.
66. P. Noll, "Digital Audio Coding for Visual Communications," Proc. IEEE, pp.925-943, Jun.
67. H. Fletcher, "Auditory Patterns," Rev. Mod. Phys., pp.47-65, Jan.1940.
68. D.D.Greenwood, "Critical Bandwidth and the Frequency Coordinates of the Basilar Mem. Brane," J. Acous. Soc. Am. ,pp. 1344-1356,Oct. 1961.
69. J. Zwislocki, "Analysis of Some Auditory Characteristics,"in Handbook of Mathematical Psychology, R. Luce, et at., EDS., New York: John Wiley and Sons, Inc., 1965.
70. B. Scharf, "Critical Bands," in Foundation of Modern Auditory Theory, New York: Academic Press, 1970.
71. R. Hellman, "Asymmetry of Masking Between Noise and Tone," Percep. And Psychphys., pp.241-246, vol.11,1972.
72. E. Zwicker and H.Fastl, Phychoacoustics Facts and Models, Springer-Verlag, 1990.
73. E. Zwicker and U. Zwicker, "Audio Engineering and Psychoacoustics: Matching Signals to the Final Receiver, the Human Auditory System," J. Audio Eng. Soc. Pp.115-126, Mar.1991.
74. M. Schroeder, et at.,m "Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear," J. Acoust. Soc. Am., pp.1647-1652, Dec. 1979.
75. J. Johnston, "Estimation of Perceptual Entropy Using Noise Masking Criteria," in Proc. ICASSP-88, pp. 2524-2527, May 1988.
76. Terhard, E., "Calculating Virtual Pitch," Hearing Research, pp.155-182, 1,1979.
77. N. Jayant, et at., "Signal Compression Based on Models of Human Perception," Proc. IEEE, pp.1385-1422, Oct. 1993.
78. P. Papamichalis, "MPEG Audio Compression: Algorithms and Implementation," in Proc. DSP 95 Int. Conf. On DSP, pp.72-77, June 1995.
79. NJayant and P. Noll, Digital Coding of Waveforms Principles and Applications to Speech and Video, Englewood Cliffs: Prentice-Hall, 1984.
80. D. Krahe, "New Source Coding Method for High Quality Digital Audio Signals," NTG Fachtagung Hoerrundfunk, Mannheim, 1985.
81. Scott N. Levine, Ph. D. Dissertation: Audio Representation for Data Compression and Compressed Domain Processing, http://www-ccrma.stanford.edu.
82. Рекомендации MKKP, 1999. Том X Часть 1. Радиовещательная служба (звуковая), ст. 149-154.
83. Ye. Wang, Leonid Yaroslavski, Mikka Vilermo. " The Impact of Relationship between MDCT and DFT on Audio Compression" E-mail: ye.wang@nokia.com.
84. D.M.Green. "Additivity of Masking " J.Acoustic. Soc.Am.41(6),Jan.l967.
85. E.Zwicker, S.Herla. "Uber die Addition von Verdeckungseffekten".Acustica Vol. 34, pp. 89-97,1975.
86. R.A.Luffi. "Additivity of simultaneous Masking ". J. Acoustic. Soc. Am. 73, pp. 262-267,
87. James D. Johnston. "Estimation of Perceptual Entropy Using Noise Masking Criteria". AT&T Bell Laboratories, 1988 IEEE.
88. И.Н. Бронштейн, K.A. Семендяев "Справочник по математике". Москва "Наука"1986 г.90111. Закс. Теория статистических выводов. -М.: Мир, 1975г.
89. Anibal Joao de Sousa Ferreira. " Spectral Coding and Post-Processing of High Quality Audio" 1998.
90. Ю. А. Коволгин, А. В. Борисенко, Г. С. Гнезел " Акустические основы стереофонии ".-М.: Связь, 1978.
91. Leakey D.M., Sayres М.А., Cherry Е.С. Binaural fusion of high and low frequency sound.-"J. Acoust. Soc. Amer.", 30, 1958 , p- 222-223.
92. Батко Б.М. "Соискателю ученой степени. Практические рекомендации (от диссертации до аттестационного дела)". М.: СИП РИА, 2002.-288с., ил.
93. Yatagama Gamage D.P., Kowalgin Ju. A. Algorithms of Digital Audio Data Compression; Standards, Problems and Perspectives of Development. The Proceedings of the AES 21st International conference -1-3 June 2002, St. Petersburg, Russia, p. 203-212.
94. R.Kapust. Qualitaetsbeurteilung codierter Audiosignale mittels einer BARKTransformation. Erlangen-Nuernberg.Universitaet (Technische Fakultaet), Dissertation, 1993.
95. Frank Baumgarte, Charalampos Ferekidis, Hendrik Fuchs. "A Nonlinear Psychoacoustic Model Applied to the ISO MPEG Layer 3 Coder" University of Hanover, Germany.
96. M. R. Schroeder, B. S. Atal, J.L.HaIl. Optimizing digital spech coders by exploiting masking properties of the human ear. J.Acoustic Sos. Am., Vol. 66,1979,S. 1647-1652.
97. EBU-SQAM Compact Disc; http://www.ebu.ch/tech t3253.pdf
98. J. Soumagne, P. Mabilleau, S. Morissette, G. Chouinard, and D. Benneett, " A comparative study of proposed high quality coding schemes for digital music," in ICASSP 1986 Proc., pp 1.6.1-1.6.4.
99. C. Todd, "A digital audio system for broadcast and prerecorded media, " presented at the 75th AES Conv. Paris, France, Mar. 1984
100. Скляр Б. Цифровая связь. Теоретические основы и практические применение. Изд.2-е., испр.: Пер. с англ.-М.: Издательский дом «Вильяме», 2003.-1104 с.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.