Видеокомпрессия на основе дискретного вейвлет-преобразования и блочной компенсации движения тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Шаронов Игорь Олегович

  • Шаронов Игорь Олегович
  • кандидат науккандидат наук
  • 2018, ФГАОУ ВО  «Национальный исследовательский университет «Московский институт электронной техники»
  • Специальность ВАК РФ05.13.01
  • Количество страниц 137
Шаронов Игорь Олегович. Видеокомпрессия на основе дискретного вейвлет-преобразования и блочной компенсации движения: дис. кандидат наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). ФГАОУ ВО  «Национальный исследовательский университет «Московский институт электронной техники». 2018. 137 с.

Оглавление диссертации кандидат наук Шаронов Игорь Олегович

Введение

1 Основные положения теории и применения методов видеокомпрессии

1.1 Необходимые понятия и определения

1.2 Обзор методов видеокомпрессии

1.2.1 Преобразование цветового пространства

1.3 Блочная компенсация движения

1.3.1 Алгоритмы поиска векторов

1.3.2 Блочная компенсация с перекрытием

1.3.3 Кодирование векторов перемещений

1.4 Арифметическое кодирование. Q-, MQ-, M-кодеры

1.5 Сжатие разностного изображения

1.5.1 ДКП с квантованием

1.5.2 Сжатие с помощью вейвлет-преобразования. Алгоритмы EZW, SPIHT, JPEG-2000

1.6 Дробнопиксельная компенсация

1.7 Современные стандарты MPEG

1.8 Постановка задачи исследования

1.9 Выводы

2 Компенсация движения на основе блоков шестиугольной формы

2.1 Методы поиска векторов

2.2 RD-критерий для поиска векторов перемещений

2.3 Трёхслойная схема кодирования

2.3.1 Многомодельный подход

2.4 Параметры блочной компенсации с перекрытием

2.5 Идеальная форма блоков

2.6 Сегментация кадра на шестиугольные блоки

2.6.1 Модель блока

2.6.2 Расширение кадра

2.7 Трёхслойная схема кодирования для блоков шестиугольной формы

2.7.1 Распределение шестиугольных блоков по слоям

2.7.2 Применение нулевого слоя

2.7.3 Многомодельный подход

2.7.4 Оптимальные параметры перекрывающихся окон

2.7.5 Алгоритм компенсации движения

2.7.6 Послойная КС-оптимизация

2.8 Выводы

3 Разработка видеокодека на основе ДВП

3.1 Общая структура кодека

3.2 Сжатие разностного изображения с помощью SPIHT

3.2.1 Описание базового алгоритма SPIHT

3.2.2 Модификация SPIHT

3.2.3 КС-оптимизация битовых плоскостей

3.3 Сквозная КС-оптимизация

3.4 Рекомендации по реализации и оптимизации видеокодека на платформе «МУЛЬТИКОР»

3.5 Рекомендации по распараллеливанию

3.6 Выводы

4 Практические результаты применения видеокодека

4.1 Оценки качества декодированных видеопоследовательностей

4.1.1 Объективные оценки качества

4.2 Результаты сравнения

4.2.1 Подбор параметров маски для ОВМС

4.2.2 Дробнопиксельная компенсация

4.2.3 Многомодельная трёхслойная схема

4.2.4 Послойная КС-оптимизация

4.2.5 ЛгёРШТ

4.2.6 Производительность

4.2.7 Сравнения с кодеками на базе квадратной формы блоков, Бкас иН

4.2.8 Сравнение ДВП фильтров

4.3 Выводы

Выводы и заключение

Список литературы

Приложение А Стандартные тестовые видеопоследовательности

Приложение Б Копия акта внедрения

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Видеокомпрессия на основе дискретного вейвлет-преобразования и блочной компенсации движения»

Введение

В 1964 году компанией AT&T через устройство «Picturephone Mod I» был осуществлён первый видеозвонок. Стоимость устройства была настолько высока, что оно не снискало популярности, и компания в конечном итоге свернула проект. Спустя почти 50 лет снова появился интерес к видеозвонкам. Skype, Viber, GoogleTalk, FaceTime и много других программ способны предоставить сервис видеочата. Для осуществления сеанса видеосвязи не нужно специального оборудования, как это было с устройствами серии «Picturephone». В современном мире необходимые ресурсы для осуществления видеозвонков доступны для обычного человека. Что же повлияло на развитие технологий за прошедшие 50 лет, что позволило видеозвонкам стать популярными и доступными?

Конечно же, это в первую очередь развитие аппаратной составляющей оборудования. Производительность современных телефонов, которые уже называют смартфонами, находится на уровне пользовательских персональных компьютеров (ПК) 10-15 летней давности. С такой аппаратурой стало возможным исполнять программы такой же сложности, как и на обычных ПК. Именно поэтому большинство современных компаний предоставляют свои программы одновременно как для ПК, так и для смартфонов.

Во вторую очередь, развитие алгоритмической программной составляющих тоже не стоит на месте. Видео и аудио кодеки эволюционируют с такой же скоростью, как и аппаратура. Причём за последнее десятилетие наблюдается ускорение эволюции кодеков. Теперь очень часто встречается ситуация, когда программная составляющая продукта разрабатывается совместно с разработкой аппаратной составляющей, на которой продукт будет эксплуатироваться.

Хотя аппаратура теперь и является достаточно высокопроизводительной, не все компоненты общей системы коммуникации обладают такими же хорошими показателями. Как правило, система коммуникации состоит из передатчика, канала связи и приёмника. Если приёмник и передатчик — это смартфон, и его производительность нас устраивает, то канал связи — это по сути «чёрный ящик», в котором может находиться что угодно: от сетевых роутеров и маршрутизаторов до мощных серверов. Не все компоненты канала связи обладают достаточной производительностью. Также сам канал связи обычно является недостаточно широким в плане скорости передачи информации, так как изначально был ориентирован на голосовое общение, объём которого в десятки раз меньше видео данных. Для того, чтобы вся система

коммуникации была способна к соединению её абонентов и бесперебойному общению, необходима удовлетворительная работа каждой компоненты системы. Поэтому данные необходимо сжимать, чтобы повышать пропускную способность канала свя-

В связи со стремительным развитием встраиваемой аппаратуры, идёт тенденция к усложнению алгоритмов видеокодирования. Например, более простой алгоритм сжатия данных без потерь по Хаффману постепенно заменяется на более ресурсоёмкое, но значительно более эффективное арифметическое кодирование. Наряду с широко распространёнными видеокодеками на базе дискретного косинусного преобразования (ДКП) — например, XviD, VP9, H.264, Theora — появляются видеокодеки на основе дискретного вейвлет-преобразования (ДВП) — например, Dirac, Motion Wavelet, которые требуют больше ресурсов оборудования. Поэтому необходимо учитывать современное развитие оборудования и исследовать те направления видеокомпрессии, которые раньше на аппаратных платформах были слишком ресурсоёмкими.

На сегодняшний день Интернет является одной из самых быстроразвивающихся технологий. Большую часть трафика всемирной паутины составляет видео контент. По статистическим данным компании Cisco (Cisco Visual Networking Index: Forecast and Methodology, 2014-2019), на 2014 год онлайн-видео занимало 64% всего контента интернета. По прогнозам компании к 2019 году эта цифра увеличится до 80%. Поэтому развитие алгоритмов компрессии видео данных является актуальным направлением исследований.

Проблемой передачи и хранения статических и динамических изображений занимаются многие учёные в мире. К ним можно отнести: A.S. Lewis и G. Knowles [61], A. Said и W.A. Pearlman [78], D. Taubman [86], J.M. Shapiro [81], G.J. Sullivan [99], T. Weigand [74], G. Bj0ntegaard [40], A. Norkin [69], M. Karczewicz [57], J.-R. Ohm [71], A. Alshin и E. Alshina [39] и др. Среди наших отечественных исследователей в области кодирования и обработки статических и динамических изображений следует отметить В.П. Дворковича и А.В. Дворковича [8], С.В. Умняшкина [89], Д.С. Ватоли-на [4,70] совместно с группой обработки и сжатия видео при МГУ, Ю.С Радченко [17], О.О. Евсютина [20] и др.

Сжатие видео данных происходит в два этапа. На первом этапе устраняется временная зависимость между кадрами. В большинстве случаев для устранения межкадровой зависимости используются алгоритмы блочной компенсации движения. В результате получается поле векторов перемещений. На втором этапе происходит устранение пространственной зависимости внутри кадров. Для осуществления второго

этапа часто используют кодеры статических изображений. Результатом данного этапа является разностное изображение. Далее по каналам связи передаются векторы перемещений и разностные изображения, по которым декодер сможет восстановить с некоторой погрешностью первоначальную видео последовательность.

Большинство алгоритмов блочной компенсации движения используют квадратную форму блоков. Выбранная форма блоков проста в реализации, а также обладает свойством: любой квадратный блок может быть построен из аналогичных маленьких квадратов. Такое свойство является востребованным в современных видеокодеках для реализации алгоритма блочной компенсации с переменным размером блоков. Однако квадратная форма блоков не всегда является эффективной для компенсации движения. Анализ строения зрения многих животных использовался многими учёными для реализации более совершенных алгоритмов компьютерного зрения [65]. Как показывают исследования, светочувствительные клетки на сетчатке расположены в вершинах шестиугольников, что перекликается с задачей эффективной упаковки шаров на плоскости [11]. Поэтому использование шестиугольной решётки пикселей потенциально эффективнее для задач компьютерного зрения, нежели расположение в квадратной решётке. Точно такую же идею можно применить для блочной компенсации движения, приняв за форму блоков правильный шестиугольник.

Целью диссертационной работы является повышение эффективности блочной компенсации движения для видеокодека на базе ДВП.

Для достижения поставленной цели необходимо было решить следующие задачи.

1. Адаптировать общую схему видеокомпрессии, основанную на блочной компенсации движения, для применения блоков шестиугольной формы и ДВП.

2. Разработать метод блочной компенсации движения на основе блоков шестиугольной формы взамен традиционной квадратной формы блоков.

3. Интегрировать методы передачи разностного изображения и векторов перемещений.

4. Провести экспериментальное сравнение полученного метода видеокомпрессии на базе шестиугольной формы блоков с аналогичным методом на базе квадратной формы блоков.

Научная новизна диссертационного исследования заключается в следующем: впервые для задач видеокомпрессии были применены блоки шестиугольной формы.

Практическая значимость результатов работы заключается в том, что разработанный метод видеокомпрессии позволяет улучшить качественные характеристики видеокодеков, а также ускорить процесс кодирования видеопоследовательностей.

Степень достоверности результатов обеспечивается использованием для их получения общепринятых научных подходов и методов. Подбор эмпирических параметров и сравнения методов производились с помощью численных экспериментов на классах стандартных видеопоследовательностей, рекомендованных для тестирования видеокодеков. Анализ результатов и основные выводы были сделаны на основе широко распространённых метрик качества PSNR, BD-PSNR и BD-Rate.

Методы исследований. В ходе работы над диссертацией применялись методы линейной алгебры, теории вероятностей и математической статистики, численные методы; теория цифровой обработки и кодирования данных. Экспериментальные исследования проводились с помощью численного моделирования на ПК с применением различных программных средств разработки.

Апробация работы. Основные результаты работы докладывались на 17-ой и 18-ой Всероссийских межвузовских научно-технических конференциях «Микроэлектроника и Информатика» (Москва, МИЭТ, 2010, 2011 гг.), на 16-ой Международной конференции «Цифровая обработка сигналов и её применение» (Москва, 2012 г.).

Материалы разработанного метода вошли в научно-исследовательскую работу «Анализ алгоритмов видеоаналитики и их адаптация для платформы МУЛЬТИ-КОР» [3], а также использовались при анализе и реализации библиотеки стандарта компьютерного зрения OpenVX [16]. Предложенный в работе метод вейвлет-компрессии с блочной компенсацией движения на основе блоков шестиугольной формы запатентован [24].

Результаты диссертационной работы были внедрены в программный пакет на предприятии АО НПЦ «ЭЛВИС» , копия акта внедрения приведена в приложении Б.

Личный вклад. Автором были лично проведены все исследования в данной работе, обработаны и интерпретированы полученные результаты. В выполненных в соавторстве работах все экспериментальные результаты и основанные на них выводы и эмпирические параметры получены лично автором.

Публикации. Основные результаты по теме диссертации изложены в 9 печатных трудах [16,24-27,30,32,33,90] и одном отчёте по НИР, из которых:

— 3 изданы в журналах, рекомендованных ВАК [16,25,27];

— 1 — в журнале, индексируемом в международной базе Scopus [90];

— 3 — в тезисах докладов [26,30,32];

— зарегистрирован один патент на изобретение [24];

— материалы разработанного метода использовались в отчёте о НИР [3].

Основные положения, выносимые на защиту.

1. Предложенный метод вейвлет-видеокомпрессии на основе блоков шестиугольной формы позволяет повысить степень сжатия в среднем на 9% по сравнению с аналогичным методом на базе блоков квадратной формы.

2. Предложенный метод видеокодирования позволяет выполнять кодирование видеопоследовательностей на 20% быстрее по сравнению с методом на основе блоков квадратной формы.

3. Разработанный метод видеокомпрессии позволяет сжимать видеопоследовательности лучше в среднем на 7%, чем видеокодек на базе ДВП стандарта Dirac.

4. Использование векторных операций, реализованных в таких современных процессорах как отечественная вычислительная платформа «МУЛЬТИКОР», позволяет повысить быстродействие предложенного метода.

Объём и структура работы. Диссертация состоит из введения, четырёх глав, заключения и двух приложений. Полный объём диссертации составляет 137 страниц с 41 рисунком, 8 таблицами и 3 листингами кода. Список литературы содержит 103 источника.

Во введении приведено обоснование научной новизны, практической значимости, актуальности работы, а также сформулированы цель работы, решаемые задачи и вынесены основные положения на защиту диссертации.

В первой главе приводятся основные понятия теории цифровой обработки и кодирования изображений и видео. Даны описания известных методов кодирования видео, а также показаны их преимущества и недостатки.

Во второй главе разобраны методы поиска векторов перемещений, а также описан предлагаемый метод видеокомпрессии на основе блоков шестиугольной формы. Рассмотрены модификации алгоритмов, сопутствующих компенсации движения, для внедрения шестиугольной формы блоков в современные видеокодеки.

Третья глава посвящена модификации алгоритма SPIHT для его более эффективного применения в рамках видеокомпрессии. Здесь же даны рекомендации по распараллеливанию и реализации метода видеокомпрессии на отечественной гетерогенной платформе «МУЛЬТИКОР».

Четвёртая глава содержит обсуждение результатов исследований. Проведены сравнения разработанного метода видеокомпрессии с аналогичным методом для квадратных блоков, со стандартными видеокодеками на основе ДКП (Н.264) и ДВП ^гас).

В заключении сформулированы основные результаты и определены перспективы и дальнейшие направления исследований.

Глава 1

Основные положения теории и применения методов видеокомпрессии

1.1 Необходимые понятия и определения

Кратко рассмотрим основные термины видеокодирования, необходимые для дальнейшего изложения.

Информация — довольно сложное и до конца не трактуемое однозначно философское понятие. Один из основателей кибернетики Норберт Винер утверждал [5], что «информация есть информация, а не материя и не энергия», тем самым подчёркивая, что у информации не может быть чёткого определения. Информация используется людьми для получения каких-либо сведений, новых знаний или общения. Она играет важную роль в деятельности человека, связывая окружающий мир с его внутренним представлением. Поэтому вопросы передачи, хранения и обработки информации являются одними из самых актуальных на сегодняшний день, которые рассматриваются теорией информации.

В теории информации, впервые обобщённой Клодом Шенноном в 1948 году [80], главное место занимает не сама информация, а её измерение. Академик А.Н. Колмогоров в своей статье [10] описал три подхода к объяснению понятия «количество информации»: комбинаторный (Хартли), вероятностный (Шеннон) и алгоритмический. Вероятностный подход является наиболее распространённым в наши дни. Шенноном была введена мера количества информации (её априорной неопределённости), называемая энтропией:

N-1

Н = - £ рг 1св (р) , (1.1)

¿=0

где рг = Р {X = хг} — вероятность появления символа хг в сообщении из некоторого алфавита {хк}^=01, N — количество символов в алфавите, логарифмирование ведётся по любому удобному основанию. Если основание логарифма равно двум, то говорят о двоичной энтропии. Сообщением М будем называть произвольный набор символов {х0, х1,х2,. .. } из заданного алфавита А, хг Е А. Сообщения генерируют-

ся дискретным источником сообщений X, который каждому символу xi из A ставит в соответствие вероятность его появления p(xi). Если появление символа xi зависит от некоторого условия, например, от состояния другого источника сообщений Y, тогда говорят об условной энтропии [29]:

H (X|Y) = Y,Р (Уп) H (X|yj ,

" (1.2)

H (X |yn) = Р (Xm | Уп ) log (p (Xm|yn)) ,

m

где H (X |yn) — это частная условная энтропия источника X по отношению к состоянию Уп источника Y.

Обработка информации ведётся с данными, которые её содержат. Стандарт ISO/IEC 2382-1:1993 говорит следующее: данные — поддающееся многократной интерпретации представление информации в формализованном виде, пригодном для передачи, связи или обработки. Таким образом, данные — это не сама информация, а лишь её представление. Во многих ситуациях принято отождествлять понятия данные и информация. Здесь и далее мы будем следовать этому правилу отождествления. В тех случаях, когда разница между понятиями окажется существенной, будет использован конкретный термин.

Объем данных определяется как количество затраченных битов на их хранение или передачу. Бит (от англ. binary digit), в свою очередь, — это минимальная единица измерения данных (равная одному разряду двоичного представления числа), которая способна принимать только два значения: либо 0, либо 1. Такое определение объёма данных используется преимущественно в вычислительной технике.

Любое понятие компрессии данных или сжатия данных относится к сокращению объёма данных путём их изменения. Процесс сокращения размера данных обычно называют кодированием, а обратный процесс — декодированием. Также, применяют термин сжатие для обозначения сокращения объёма данных. Если декодированные данные совпадают с оригинальными, то говорят о сжатии без потерь. Сжатие с потерями не гарантирует точного восстановления информации, зато может сильнее сократить объем данных. Отношение размера сжатых и несжатых данных показывает их избыточность для конкретного алгоритма. Также данное отношение можно использовать для оценки степени сжатия алгоритма компрессии.

Информацию необходимо передавать или хранить. Как мы уже указали, информация не имеет никакой физической природы. Поэтому для хранения, обработки и

передачи информации используют сигналы — некоторые материальные носители информации. Сигналы могут быть электрическими, оптическими, многомерными, аналоговыми, дискретными, цифровыми, случайными и т. д. Абстрагироваться от типа сигнала помогают математические модели. В цифровой обработке сигналов наиболее часто используются математические модели дискретных сигналов, в том числе, описываемые дискретными случайными процессами. Каждое значение дискретного сигнала принято называть отсчётом, а расстояние между соседними отсчётами — шагом дискретизации. Обычно шаг дискретизации выбирается одинаковым для всех отсчётов. Если каждому отсчёту поставлено в соответствие значение из некоторого заданного множества Q, тогда такой сигнал считается проквантованным или цифровым.

Примером одномерного сигнала можно назвать звуковые колебания, изменяющие свою частоту со временем по некоторому закону. Изображение является двумерным сигналом. Если говорить о дискретном сигнале, то каждый отсчёт изображения представляет собой пиксель. Пиксель (pixel, picture element) — это минимальный элемент изображения. Одной из характеристик пикселя является цвет, о котором рассказывается в разделе 1.2.1. Мы будем ограничиваться только полутоновыми изображениями или изображениями в оттенках серых цветов. Для таких изображений пиксель представляет собой проквантованное значение яркости, определяемое диапазоном представления чисел в вычислительной технике. Каждый пиксель изображения имеет некоторую область вокруг себя, в которой значения соседних пикселей близки. Такие области характеризуют пространственную избыточность. Обычно пространственную избыточность устраняют с помощью алгоритмов сжатия статических изображений.

Изменение двумерного сигнала с течением времени можно рассматривать как трёхмерный сигнал, одной из размерностей которого является время. Проделав дискретизацию по времени, мы получим набор двумерных сигналов, зависимых друг от друга. Дискретизация и квантование каждого из полученных двумерных сигналов приведёт нас к набору изображений, который называют видеопоследовательностью, видеорядом, динамическим изображением или просто видео. Каждое изображение видеопоследовательности принято называть её кадром. В основном, кадры зависят от своих соседей (за исключением резкой смены сюжета) из-за наличия похожих областей, которые находятся в разных местах кадров. Области кадра, имеющие одинаковый размер и строго определённую форму, называют блоками кадра. Будем говорить о смещении блока, как о разнице его исходной и полученной позиций в результате

работы некоторого алгоритма. Очень часто смещение будем характеризовать вектором перемещения. По сути вектор перемещения области показывает движение в видео. Зависимость становится меньше, если рассматриваемые кадры далеко отстоят друг от друга. Временная зависимость между кадрами характеризует временную избыточность видеопоследовательности. Для её устранения предназначены алгоритмы оценки и компенсации движения, один из которых разработан в рамках данного диссертационного исследования и описан в главе 2.

Под точностью восстановления или качеством восстановления будем подразумевать один из критериев оценок качества, которые подробно разобраны в главе 4.

Наконец, видеокомпрессию или видеокодирование можно рассматривать как преобразование исходного видеоряда в закодированную последовательность. Идеальная последовательность должна обладать наименьшим числом бит для хранения и наибольшей возможной точностью после восстановления. Эти два требования — эффективность сжатия и высокая точность — противоречат друг другу.

1.2 Обзор методов видеокомпрессии

Для реальных сюжетов соседние кадры видеопоследовательности имеют области, содержащие сходную информацию. Поэтому, кроме внутрикадровой избыточности статических изображений, имеется также и межкадровая избыточность (временная избыточность). По этой причине независимая обработка каждого кадра каким-либо алгоритмом компрессии статических изображений недостаточно эффективна. Можно было бы рассматривать видеопоследовательность как трёхмерное изображение (где одна из координат — время), и применять трёхмерные алгоритмы сжатия изображений. Данный подход имеет существенный недостаток — большие вычислительные затраты. Поэтому наиболее широкое распространение получил подход, основанный на компенсации перемещения объектов видеосюжета.

По способу кодирования кадры видеопоследовательности разделяются на следующие типы:

— I-кадры (intra frames) или ключевые — закодированы независимо от других кадров в видеопотоке. Данный тип кадра является наиболее существенным кадром в видеопоследовательности, так как не зависит от других кадров.

— P-кадры (predicted frames) — кадры, использующие информацию из предыдущего I- или P-кадра. Это самый распространённый тип кадра. С помощью него происходит устранение межкадровой избыточности.

— B-кадры (bidirectional predicted frames) — кадры, использующие информацию из

предшествующего и последующего кадра, либо только одного из них. Использование B-кадров позволяет повысить степень сжатия видеопотока.

В современном видеокодировании GOP^m (group of pictures, группа кадров) называют пирамидальную структуру из I-, P- и B-кадров (рисунок 1.1). Размером GOP^ обозначают расстояние между двумя ближайшими кадрами основания пирамиды. Расстояние между ближайшими I-кадрами называют интра-периодом. В терминах кодека H.264 GOP — это интра-период. Следует отметить, что порядок кодирования кадров отличается от порядка их поступления в кодек. Так как B-кадры не могут быть сжаты, пока не будут сжаты кадры, от которых они зависят, порядок следования закодированных кадров меняется. При декодировании эта особенность учитывается, и декодер после восстановления кадров расставляет их снова в правильном порядке. Например, чтобы сжать B-кадр №2, сначала необходимо сжать I-кадр №0, потом P-кадр №4 и только после этого B-кадр №2 (рисунок 1.1).

Помимо перечисленных типов кадров, существуют и другие, применяемые в масштабируемых видеокодеках (например, H.264 SVC). На сегодняшний день масштабируемые видеокодеки не являются широко распространёнными, так как для восстановленного видеоряда качество оказывается всегда хуже, чем если бы этот же видеоряд был сжат обычным подходом при той же степени сжатия.

B B B B

декодирования

I

POC 0 Порядок

0

1

3

B

2 2

3

4

P

4 1

5 7

B

6 6

7

8

P

8 5

Рисунок 1.1: Пример пирамидальной структуры GOP^. GOP равен 4, интра-период равен 9. POC — порядковый номер кадра (Picture Order Count)

1.2.1 Преобразование цветового пространства

Для монохромного изображения достаточно задать всего одно число для выражения яркости или светимости пикселя. Для точной передачи полноцветного изображения необходимо как минимум три числа. Метод, выбранный для представления полноцветного пикселя, называется цветовым пространством.

В цветовом пространстве RGB на каждый пиксель приходится 3 числа. Эти числа характеризуют относительную интенсивность красного (Red), зелёного (Green) и синего (Blue) цветов. Любой другой цвет можно получить комбинацией этих трёх цветов в соответствующей пропорции. Цветовое пространство RGB наиболее близко к человеческому восприятию, из-за наличия в сетчатке глаза трёх видов клеток, отвечающих за распознавание одного из трёх цветов. Именно поэтому это цветовое пространство широко распространено.

Цветовое пространство YCbCr и его вариации являются популярным методом эффективного представления цветных изображений. Буква Y обозначает компоненту яркость (светимость), которая вычисляется как взвешенная сумма компонент R, G и B по следующей формуле:

Y = tr R + kb B + kg G, (1.3)

где k обозначает соответствующий весовой множитель.

Цветовая (хроматическая) информация может быть представлена компонентами цветовых разностей (хроматичностей), то есть каждая компонента цветности — это разность между компонентами R, G, B и компонентой яркости. Из предыдущей формулы видно, что зелёную составляющую G можно выразить через Y, R и B. В итоге получим систему перевода из RGB в YCbCr (учитывая, что kr + kb + kg = 1) [18]:

Y = kr R + kb B + (1 — kr — kb) G,

0 5

=r—fe (B — Y), (1.4)

0 5

Cr = тзу (R—Y) •

1 — kr

Обратные формулы перехода записываются так:

R = Y + Cr,

0.5

B = Y + ^ Cb, (1.5)

G = Y — 2kb(1 — kb) Cb — 2 fcr (1 — kr)

1 — kb — k r 1 — kb — kr

где kb = 0.114 и kr = 0.299 (стандарт ITU-R 601).

Преимущество пространства YCbCr по сравнению с RGB заключается в том, что компоненты Cb и Cr можно представлять с меньшим разрешением (проредить), чем

Y, так как глаз человека менее чувствителен к цвету предметов, чем к их яркости. Это позволяет сократить объем информации, требуемой для представления хроматических компонент, без заметного ухудшения качества передачи цветовых оттенков изображения.

В видеокодировании обычно используется формат прореживания 4:2:0. Прореживание цветоразностных компонент составляет четыре яркостных пикселя на один цветоразностный (рисунок 1.2). Чаще всего все компоненты формата идут в планар-ном порядке: сначала Y, потом СЬ, потом Сг. Такое расположение удобно, например, для обработки только Y-компоненты, что является наиболее употребимым для тестирования видеокодеков.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Список литературы диссертационного исследования кандидат наук Шаронов Игорь Олегович, 2018 год

Список литературы

1. Айфичер Э., Джервис Б. Цифровая обработка сигналов. Практический подход. — 2 изд. — Москва : Вильямс, 2004. — 992 с.

2. Александров А.А., Умняшкин С.В. Модификация алгоритма трёхслойной компенсации движения для видеокодека на базе дискретного вейвлет-преобразования // Изв. вузов. Электроника. — 2011. — Т. 6. — С. 55-61.

3. Анализ алгоритмов видеоаналитики и их адаптация для платформы МУЛЬТИ-КОР : Отчет о НИР (заключ.) / МИЭТ ; рук. С.В. Умняшкин ; исполн.: Р.В. Голованов, И.О. Шаронов, К.В. Панфилова и др. — Москва : 2015. — 206 с. — № ГР 115071310026.

4. Ватолин Д., Гришин С. Качественный метод деблокинга видео без использования информации о квантовании // GraphiCon. — 2004. — С. 257-260.

5. Винер Н. Кибернетика или Управление и связь в животном и машине. -- 2 изд. -Москва : Советское радио, 1968. — 201 с.

6. Голованов Р.В., Калиткин Н.Н. Критерий сглаженных градиентов для оценки качества искаженного изображения // Доклады Академии Наук. — 2013. — 8. — Т. 451, №4.-С. 385—388.

7. Гончаров В.А. Методы оптимизации. — Москва : Высшее образование, 2009. — 191 с.

8. Дворкович В.П., Дворкович А.В. Цифровые видеоинформационные системы (теория и практика). — Москва : Техносфера, 2012. — 1008 с.

9. Добеши И. Десять лекций по вейвлетам. -- Ижевск : Регулярная и хаотическая динамика, 2004. -- 400 с.

10. Колмогоров А.Н. Три подхода к определению понятия "количество информации" // Пробл. передачи информ. — 1965. — Т. 1, № 1. — С. 3—11.

11. Конвей Дж., Слоэн Дж. Упаковки шаров, решетки и группы. — Москва : Мир, 1990.- Т. 1.-415 с.

12. ЛагранжЖ. Аналитическая механика. — М. - Л. : Государственное издательство технико-теоретической литературы, 1950. — 594 с.

13. Лайонс Р. Цифровая обработка сигналов. — 2 изд. — Москва : Бином, 2006. — 654 с.

14. Малла С. Вейвлеты в обработке сигналов. — Москва : Мир, 2005. — 671 с.

15. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео / Д. Ватолин, А. Ратушняк, М. Смирнов, В. Юкин. — Москва : Диалог-МИФИ, 2002. - 384 с.

16. Особенности реализации функций стандарта OpenVX для специализированных платформ / И.О. Шаронов, Д.А. Кузнецов, С.В. Умняшкин, Панфилова К.В. // Вопросы радиоэлектроники. — 2017. — № 8. — С. 84-88.

17. Радченко Ю.С. Алгоритм сжатия изображений на основе полиномиальных преобразований // Цифровая обработка сигналов. — Т. 1. — 2002. — С. 2-6.

18. Ричардсон Я. Видеокодирование. H.264 и MPEG-4 — стандарты нового поколения. — Москва : Техносфера, 2005. — 368 с.

19. Рохлин В.А. Площадь и объём. — Москва : Наука, 1966. — 624 с. — Энциклопедия элементарной математики, Книга 5, Геометрия, под редакцией П.С. Александрова, А.И. Маркушевича и А.Я. Хинчина.

20. Сжатие цифровых изображений / О.О. Евсютин, А.А. Шелупанов, С.К. Росо-шек, Р.В. Мещеряков. — Москва : Горячая линия — Телеком, 2013. — 124 с.

21. Сэломон Д. Сжатие данных, изображений и звука. — Москва : Техносфера, 2006.- 368 с.

22. Умняшкин С.В., Александров А.А., Коплович Е.А. Алгоритм видеокомпрессии на основе дискретного вейвлет-преобразования с трёхслойной схемой кодирования векторов движения // Известия вузов. Электроника.— 2008.— Т. 5.— С. 69-73.

23. Умняшкин С.В., Табориский А.Е. Метод обработки Р-кадров для видеокодека на основе дискретного вейвлет-преобразования // ЦОС. — 2011. — Т. 3. — С. 11-16.

24. Умняшкин С.В., Шаронов И.О. Способ блочной межкадровой компенсации движения для видеокодеков.— 2011.— Патент РФ №2493670, приоритет от 15.12.2011.

25. Умняшкин С.В., Шаронов И.О. Использование шестиугольных блоков для компенсации движения при видеокомпрессии // Цифровая обработка сигналов. — 2012. —№3. — С. 2-8.

26. Умняшкин С.В., Шаронов И.О. Компенсация движения для видеокодирования на основе блоков шестиугольной формы // 16-ая конференция "Цифровая обработка сигналов и её применение". — Т. 2. — Москва, 2014. — С. 508-511.

27. Умняшкин С.В., Шаронов И.О. Компенсация движения для видеокодирования на основе гексагональных блоков // Известия вузов. Электроника.— 2015.— Т. 20, №4.-С. 305-313.

28. Умняшкин С.В. О модификации дискретного косинусного преобразования // Изв. Тул. гос. ун-та. Сер. Математика. Механика. Информатика. — 1998. — Т. 4, № 1.-С. 143-147.

29. Умняшкин С.В. Основы теории цифровой обработки сигналов: Учебное пособие. — Москва : Техносфера, 2016. — 528 с.

30. Шаронов И.О. Использование шестиугольной формы блоков для компенсации движения в алгоритме видеокомпрессии // 17-ая конференция "Микроэлектроника и Информатика — 2010" / МИЭТ. — Зеленоград, 2010. — С. 154.

31. Шаронов И.О. Алгоритм компенсации движения для цифрового видеокодека на основе дискретного вейвлет-преобразования : Квалификационная работа магистра / И.О. Шаронов ; МИЭТ. — 2011. — 64 с.

32. Шаронов И.О. Блочная компенсация движения на основе блоков шестиугольной формы для алгоритма видеокомпрессии // 18-ая конференция "Микроэлектроника и Информатика — 2011" / МИЭТ. — Зеленоград, 2011. — С. 134.

33. Шаронов И.О. Применение алгоритма SPIHT для видеокодирования на основе вейвлет-преобразования // Сборник научных трудов МИЭТ. Посвящается 70-летию профессора Алексея Сергеевича Поспелова. — Москва : МИЭТ, 2016. — С. 44-52.

34. DSP-кластер DELcore-30M. Архитектура. Приложение 1. Базовая система инструкций.— 2010.— URL: http://multicore.ru/mc/data_sheets/ Manual_DELcore-30M_App1_031210.pdf (дата обращения: 05.04.2016).

35. DSP-кластер DELcore-30M. Архитектура. Приложение 2. Расширение системы инструкций.— 2010.— URL: http://multicore.ru/mc/data_sheets/ Manual_DELcore-30M_App2_031210.pdf (дата обращения: 05.04.2016).

36. DSP-кластер DELcore-30M. Архитектура.— 2010.— URL: http:

//multicore.ru/mc/data_sheets/Manual_DELcore-3 0M_0 31210.pdf (дата обращения: 05.04.2016).

37. 2-D Discrete Wavelet Transform Using GPU / M. Kucis, D. Barina, M. Kula, P. Zem-cik // Computer Architecture and High Performance Computing Workshop (SBAC-PADW), 2014 International Symposium on. — 2014. — Oct. — P. 1-6.

38. Adaptive cross-component prediction for 4:4:4 high efficiency video coding / A. Khairat, T. Nguyen, M. Siekmann et al. // Image Processing (ICIP), 2014 IEEE International Conference on. — 2014. — Oct. — P. 3734-3738.

39. Alshin A., Alshina E., Park J. Sample Adaptive Offset Design in HEVC // Data Compression Conference (DCC), 2013. — 2013. — March. — P. 475-475.

40. Bj0ntegaard G. Calculation of average PSNR differences between RD curves // ITU-T SG16 Q6 Video Coding Experts Group (VCEG), Document VCEG-M33. — 2001. — Apr. — P. 1-4.

41. A Closer Look into MPEG-4 High Efficiency AAC / Martin Wolters, Kristofer Kjor-ling, Daniel Homm, Heiko Purnhagen // Audio Engineering Society Convention 115. —2003. —Oct.

42. Cohen A., Daubechies I., Feauveau J.-C. Biorthogonal bases of compactly supported wavelets // Communications on Pure and Applied Mathematics. — 1992. — Vol. 45, no. 5. — P. 485-560.

43. Complex Wavelet Structural Similarity: ANew Image Similarity Index / M.P. Sampat, Zhou Wang, S. Gupta et al. // Image Processing, IEEE Transactions on. — 2009. — Nov. — Vol. 18, no. 11. — P. 2385-2401.

44. CUDA Programming Guide.— 2015.— URL: http://developer.download. nvidia.com/compute/cuda/1_1/NVIDIA_CUDA_Programming_Guide_1.1. pdf (online; accessed: 05.04.2016).

45. Davis G., Nosratinia A. Wavelet-based Image Coding: An Overview // Birkhauser on Applied and Computational Control, Signals, and Circuits. — 1999. — P. 205-270.

46. Dirac video.— 2013.— URL: http://sourceforge.net/projects/dirac (online; accessed: 05.04.2016).

47. FFmpeg. — 2016. — URL: http://ffmpeg.org (online; accessed: 05.04.2016).

48. Frisch Karl von. Animal Architecture. — New York : Harcourt Brace Jovanovich, 1974. — 306 p.

49. Garg R.P., Sharapov I.A. Techniques for Optimizing Applications: High Performance Computing. A Prentice Hall title. — Sun Microsystems Press, 2002. — 616 p.

50. Girod B. Psychovisual Aspects Of Image Processing: What's Wrong With Mean Squared Error? //Multidimensional Signal Processing, 1991., Proceedings ofthe Seventh Workshop on. — 1991. — Sep. — P. P.2.

51. Graham Joe. The Hive and the Honey Bee. — Hamilton/IL : Dadant & Sons, 1992. — 1324 p.

52. Hallapuro A., Karczewicz M. Low complexity (I)DCT // ITU-T SG16 Doc. — Vol. VCEG-N43. — 2001.

53. A High-Quality Speech and Audio Codec With Less Than 10-ms Delay / J. M. Valin, T. B. Terriberry, C. Montgomery, G. Maxwell // IEEE Transactions on Audio, Speech, and Language Processing. — 2010. —Jan. — Vol. 18, no. 1. — P. 58-67.

54. Image coding using wavelet transform / M. Antonini, M. Barlaud, P. Mathieu, I. Daubechies // IEEE Transactions on Image Processing. — 1992. —Apr. — Vol. 1, no. 2. — P. 205-220.

55. Image quality assessment: from error visibility to structural similarity / Zhou Wang, A.C. Bovik, H.R. Sheikh, E.P. Simoncelli // Image Processing, IEEE Transactions on. — 2004. — April. — Vol. 13, no. 4. — P. 600-612.

56. ITU-T Recommendation H.264 : Rep. : 1 / ITU-T. — Geneva : 2003.

57. Karczewicz M., Kurceren R. The SP- and SI-frames design for H.264/AVC // IEEE Transactions on Circuits and Systems for Video Technology.— 2003. — July.— Vol. 13, no. 7. — P. 637-644.

58. Keller Y., Averbuch A. Efficient global motion estimation for MPEG4 video compression // Electrical and Electronics Engineers in Israel, 2002. The 22nd Convention of. — 2002. — Dec. — P. 69-71.

59. Khayam Syed Ali. The Discrete Cosine Transform (DCT): Theory and Application // Michigan State University. — 2003. — Vol. 114. — 32 p. — Department of electrical & computing engineering.

60. Lee Hwal-Suk, Jung Jik-Han, Park Dong-Jo. An effective successive elimination algorithm for fast optimal block-matching motion estimation // Image Processing, 2008. ICIP 2008. 15th IEEE International Conference on.— 2008. —Oct.— P. 1984-1987.

61. Lewis A.S., Knowles G. Image compression using the 2-D wavelet transform // Image Processing, IEEE Transactions on. — 1992. — Vol. 1, no. 2. — P. 244-250.

62. Li Jin. Image Compression: The Mathematics of JPEG 2000 // Modern Signal Processing. — 2003. — Vol. 46. — P. 185-221.

63. Li Renxiang, Zeng Bing, Liou M.L. A new three-step search algorithm for block motion estimation // Circuits and Systems for Video Technology, IEEE Transactions on. — 1994. — Aug. — Vol. 4, no. 4. — P. 438-442.

64. Marpe, Schwarz, Wiegand. Context-based adaptive binary arithmetic coding in the H.264/AVC video compression standard // IEEE Trans. CSVT. — 2003. — Vol. 13(7). — P. 620-636.

65. Middleton Lee, Sivaswamy Jayanthi. Hexagonal Image Processing: A Practical Approach. — Springer, 2005. — 254 p.

66. Mitchell, Pennebaker. Optimal hardware and software arithmetic coding procedures for the Q-coder // IBM Journal of R & D. — 1988. — Vol. 32, no. 6. — P. 727-736.

67. Multi-octagon-grid search algorithm for fast motion estimation / C.J. Duanmu, Yu Zhang, Xing Chen, Shuihong Zhou // Information and Automation, 2008. ICIA 2008. International Conference on. — 2008. — June. — P. 284-289.

68. Nelson M., Gailly J.-L. The Data Compression Book. — 2 edition. — M&T Books, 1996. — 576 p.

69. Norkin A. HEVC-based deblocking filter with ramp preservation properties // Image Processing (ICIP), 2014 IEEE International Conference on. — 2014. — Oct. — P. 3666-3670.

70. Objective Measurements of Artifacts, Produced by Modern Video Coding Standards / Dmitry Vatolin, Sergey Grishin, A. Moskvin, Alexander Parshin // SCCG. — 2006.

71. Ohm J.R. Three-dimensional subband coding with motion compensation // IEEE Transactions on Image Processing. — 1994. — Sep. — Vol. 3, no. 5. — P. 559-571.

72. OpenCL Programming Guide / Aaftab Munshi, Benedict Gaster, Timothy G. Mattson et al. — 1st edition. — Addison-Wesley Professional, 2011. — 648 p.

73. Overview of SHVC: Scalable Extensions of the High Efficiency Video Coding Standard / J. M. Boyce, Y. Ye, J. Chen, A. K. Ramasubramonian // IEEE Transactions on Circuits and Systems for Video Technology. — 2016. —Jan. — Vol. 26, no. 1. — P. 20-34.

74. Overview of the H.264/AVC video coding standard / T. Wiegand, G.J. Sullivan, G. Bjontegaard, A. Luthra // IEEE Transactions on Circuits and Systems for Video Technology. — 2003. — July. — Vol. 13, no. 7. — P. 560-576.

75. Overview of the High Efficiency Video Coding (HEVC) Standard / G.J. Sullivan, J. Ohm, Woo-Jin Han, T. Wiegand // Circuits and Systems for Video Technology, IEEE Transactions on. — 2012. — Dec. — Vol. 22, no. 12. — P. 1649-1668.

76. Owen Todd, Hauck Scott. Arithmetic Compression on SPIHT Encoded Images // IEEE International Conference on Intelligent Computing and Cognitive Informatics. — Vol. 3. — 2010. — P. 131-133.

77. Pennebaker William B., Mitchell Joan L. JPEG: Still Image Data Compression Standard. — 1 edition. — Springer US, 1993. — 638 p.

78. Said A., Pearlman W.A. Anew fast and efficient image codec based on set partitioning in hierarchical trees // IEEE Transactions on Circuits and Systems for Video Technology. — 1996. — Vol. 6. — P. 243-250.

79. Sarwer MohammedGolam, Wu Q.M.Jonathan, Zhang Xiao-Ping. Enhanced SATD-based cost function for mode selection of H.264/AVC intra coding // Signal, Image and Video Processing. — 2013. — Vol. 7, no. 4. — P. 777-786.

80. Shannon C.E. A Mathematical Theory of Communication // Bell System Technical Journal. — 1948. — Vol. 27. — P. 379-423.

81. Shapiro J.M. Embedded image coding using zerotrees of wavelet coefficients // IEEE Transactions on Signal Processing. — 1993. — Vol. 41, no. 12. — P. 3445-3462.

82. ST 2042-1:2012 — SMPTE Standard — VC-2 Video Compression : Rep. / SMPTE : 2012.— 137 p.

83. Sullivan G.J., Wiegand T. Rate-Distortion optimization for video compression // IEEE Signal Processing Magazine. — 1998. —Nov. — P. 74-90.

84. Sweldens Wim. The Lifting Scheme: A Construction of Second Generation Wavelets // SIAM Journal on Mathematical Analysis. — 1998. — Vol. 29, no. 2. — P. 511-546.

85. Tange O. GNU Parallel - The Command-Line Power Tool // The USENIX Magazine. — 2011.—Feb. — Vol. 36, no. 1.— P. 42-47.— URL: http://www.gnu. org/s/parallel (online; accessed: 05.04.2016).

86. Taubman D., Marcellin M. JPEG2000: Image compression fundamentals, standards and practice. — 1 edition. — Springer US, 2002. — 777 p.

87. Toivonen T., Heikkild J. Improved Unsymmetric-Cross Multi-Hexagon-Grid Search Algorithm for Fast Block Motion Estimation // Image Processing, 2006 IEEE International Conference on. — 2006. — P. 2369-2372.

88. Tourapis H.-Y.C., Tourapis A.M. Fast motion estimation within the H.264 codec // Multimedia and Expo, 2003. ICME'03. Proceedings. 2003 International Conference on. — Vol. 3. — 2003. — July. — P. 517-520.

89. Umnyashkin S., Alexandrov A., Koplovich E. Wavelet based video codec for telemedicine purposes // Proc. of 5th Russian-Bavarian Conference on Biomedical Engineering. — Munich, 2009. — July. — P. 177-180.

90. Umnyashkin Sergei, Sharonov Igor. Motion compensation in video compression using hexagonal blocks // Signal, Image and Video Processing.— 2015.—December. — Vol. 9, no. 1. — P. 213-223.

91. Definition of the Opus Audio Codec : RFC : 6716 / RFC Editor; Executor: JM. Valin, K. Vos, T. Terriberry : 2012. — September.

92. van der Laan W.J., Jalba A.C., Roerdink J.B.T.M. Accelerating Wavelet Lifting on Graphics Hardware Using CUDA // Parallel and Distributed Systems, IEEE Transactions on. — 2011. — Jan. — Vol. 22, no. 1. — P. 132-146.

93. SILK Speech Codec draft-vos-silk-02 : IETF : Internet-Draft/ IETF Editor ; Executor: K. Vos, S. Jensen, K. Soerensen : 2010. — September.

94. Wang Zhou, Bovik A.C. A universal image quality index // Signal Processing Letters, IEEE. — 2002. — March. — Vol. 9, no. 3. — P. 81-84.

95. Wang Z., Bovik A.C. Modern Image Quality Assessment. — Morgan & Claypool, 2006.— 146 p.

96. Wang Zhou, Li Qiang. Information Content Weighting for Perceptual Image Quality Assessment // Image Processing, IEEE Transactions on. — 2011. — May. — Vol. 20, no. 5. —P. 1185-1198.

97. Wang Z., Simoncelli E.P., Bovik A.C. Multiscale structural similarity for image quality assessment // Signals, Systems and Computers, 2004. Conference Record of the Thirty-Seventh Asilomar Conference on.— Vol. 2.— 2003.—Nov.— P. 1398-1402.

98. Wei D., Pai H.T., Bovik A.C. Antisymmetric biorthogonal coiflets for image coding // Image Processing, 1998. ICIP98. Proceedings. 1998 International Conference on.— Vol. 2. — 1998. — Oct. — P. 282-286.

99. Wiegand T., Sullivan G.J. The picturephone is here. Really // IEEE Spectrum. — 2011. — September. — Vol. 48, no. 9. — P. 50-54.

100. Witten Ian H., Neal Radford M., Cleary John G. Arithmetic Coding for Data Compression // Commun. ACM. — 1987. — jun. — Vol. 30, no. 6. — P. 520-540.

101. Zhang Shaobo, Zhang Xiaoyun, Gao Zhiyong. Implementation and improvement of Wavefront Parallel Processing for HEVC encoding on many-core platform // Multimedia and Expo Workshops (ICMEW), 2014 IEEE International Conference on. — 2014.—July. —P. 1-6.

102. Zhu Ce, Lin Xiao, Chau L.-P. Hexagon-based search pattern for fast block motion estimation // Circuits and Systems for Video Technology, IEEE Transactions on. — 2002. — May. — Vol. 12, no. 5. — P. 349-355.

103. Zhu Shan, Ma Kai-Kuang. A new diamond search algorithm for fast block matching motion estimation // Information, Communications and Signal Processing, 1997. ICICS., Proceedings of 1997 International Conference on.— Vol. 1.— 1997.— Sep. — P. 292-296.

Приложение А. Стандартные

тестовые видеопоследовательности

Для тестирования разработанного метода видеокомпресии были выбраны 36 различных стандартных тестовых видеопоследовательностей с ресурса интернет сообщества Xiph.org (https://media.xiph.org/video/derf/) в формате YUV420p. Для проведения тестирования использовалась только яркостная Y-компонента.

Название: Claire Разрешение: QCIF (176 х 144) FPS: 15 кадров в секунду Описание: Телеведущая на однородном фоне

Название: Container Разрешение: QCIF (176 х 144) FPS: 15 кадров в секунду Описание: Плывущая баржа

Название: Foreman

Разрешение: QCIF (176 х 144)

FPS: 15 кадров в секунду

Описание: Строитель что-то рассказывает

Название: Harbour Разрешение: QCIF (176 х 144) FPS: 15 кадров в секунду Описание: Плывущие лодки

Название: Husky Разрешение: QCIF (176 х 144) FPS: 15 кадров в секунду Описание: Бегущие люди и собаки, перемещение камеры

Название: Mobile

Разрешение: QCIF (176 х 144)

FPS: 15 кадров в секунду

Описание: Много движущихся объектов в

кадре

Название: Mother and Daughter Разрешение: QCIF (176 х 144) FPS: 15 кадров в секунду Описание: Мама разговаривает с дочкой

Название: Salesman Разрешение: QCIF (176 х 144) FPS: 15 кадров в секунду Описание: Продавец в кабинете

Название: Trevor Разрешение: QCIF (176 х 144) FPS: 15 кадров в секунду Описание: Много телеведущих в кадре

Название: Flower Garden

Разрешение: SIF (352 х 240)

FPS: 30 кадров в секунду

Описание: Съёмка в движении цветочного

сада

Название: Tennis Разрешение: SIF (352 х 240) FPS: 30 кадров в секунду Описание: Играющие в настольный теннис, различные движения

Название: Akiyo

Разрешение: CIF (352 х 288)

FPS: 30 кадров в секунду

Описание: Телеведущая на статичном

фоне

Название: Bowing Разрешение: CIF (352 х 288) FPS: 30 кадров в секунду Описание: Кланящийся человек на статичном фоне

Название: Bus

Разрешение: CIF (352 х 288) FPS: 30 кадров в секунду Описание: Движущийся автобус

Название: Container Разрешение: CIF (352 х 288) FPS: 30 кадров в секунду Описание: Плывущая баржа

Название: Flower Garden

Разрешение: CIF (352 х 288)

FPS: 30 кадров в секунду

Описание: Съёмка в движении цветочного

сада

Название: Football Разрешение: CIF (352 х 288) FPS: 30 кадров в секунду Описание: Регби, быстрые движения

Название: Foreman

Разрешение: CIF (352 x 288)

FPS: 30 кадров в секунду

Описание: Строитель что-то рассказывает

Название: Harbour Разрешение: CIF (352 x 288) FPS: 30 кадров в секунду Описание: Плывущие лодки

Название: Husky Разрешение: CIF (352 x 288) FPS: 30 кадров в секунду Описание: Бегущие люди и собаки, перемещение камеры

Название: Mobile

Разрешение: CIF (352 x 288)

FPS: 30 кадров в секунду

Описание: Много движущихся объектов

Название: Mother and Daughter Разрешение: CIF (352 x 288) FPS: 30 кадров в секунду Описание: Мама разговаривает с дочкой

Название: Paris Разрешение: CIF (352 x 288) FPS: 30 кадров в секунду Описание: Мужчина (G. Sullivan) разговаривает с женщиной в кабинете

Название: Bêtes pas bêtes Разрешение: VGA (640 x 480) FPS: 30 кадров в секунду Описание: Компьютерная анимация животных

Название: Caesars Palace

Разрешение: VGA (640 x 480)

FPS: 30 кадров в секунду

Описание: Статуя конницы, зуммирова-

ние, ночь и горящий огонь

Название: Cheerleaders

Разрешение: VGA (640 x 480)

FPS: 30 кадров в секунду

Описание: Черлидерши на поле, быстрые

движения

Название: Flamingo Hilton Разрешение: VGA (640 x 480) FPS: 30 кадров в секунду Описание: Ночное освещение отеля Flamingo Hilton, зуммирование

Название: Flower Garden

Разрешение: VGA (640 x 480)

FPS: 30 кадров в секунду

Описание: Съёмка в движении цветочного

сада

Название: Football Разрешение: VGA (640 x 480) FPS: 30 кадров в секунду Описание: Регби, быстрые движения

Название: Le point Разрешение: VGA (640 x 480) FPS: 30 кадров в секунду Описание: Компьютерная анимация, много хаотично движущихся букв

Название: Red Flower

Разрешение: VGA (640 x 480)

FPS: 30 кадров в секунду

Описание: Небольшие движения красного

цветка на статическом фоне

Название: City

Разрешение: 4CIF (704 x 576) FPS: 30 кадров в секунду Описание: Съёмка города с вертолёта

Название: Crew

Разрешение: 4CIF (704 x 576)

FPS: 30 кадров в секунду

Описание: Идущие астронавты, много

вспышек камер

Название: Harbour Разрешение: 4CIF (704 x 576) FPS: 30 кадров в секунду Описание: Плывущие лодки

Название: Ice

Разрешение: 4CIF (704 x 576)

FPS: 30 кадров в секунду

Описание: Катающиеся на коньках люди

Название: Soccer Разрешение: 4CIF (704 x 576) FPS: 30 кадров в секунду Описание: Играв футбол, быстрые движения

Приложение Б. Копия акта внедрения

оэ<шис

Адрес: 124498, г. Москва, Зеленоград, проезд 4922, дом 4, строение 2 Почтовый адрес: 124460, г. Москва, а/я 19 Телефон/факс (495) 926-79-57, факс: (499) 731-19-61 www.multicore.ru,secretary@elvees.com

Акционерное общество Научно-производственный центр «Электронные вычислительно-информационные системы» (АО НПЦ «ЭЛВИС»)

"УТВЕРЖДАЮ"

т-1 ~

Генеральный директор АО НПЦ «ЭЛВИС», д.т.н.

if

к

AKi

о внедрении результатов диссертационной работы «Видеокомпрессия на основе дискретного вейвлет-преобразования и блочной компенсации движения» на соискание

учёной степени кандидата технических наук Шаронова Игоря Олеговича Комиссия в составе: председатель комиссии — заместитель директора по научной работе, к.т.н. Солохина Т.В.; члены комиссии — начальник лаборатории 12 НТО-1, д.т.н. Беляев A.A., начальник отдела программного обеспечения НТО-3 Кузнецов Д.А. составили настоящий акт о том, что результаты диссертационной работы Шаронова И.О., а именно:

• способ блочной компенсации движения на базе блоков шестиугольной формы для видеокодирования на основе дискретного вейвлет-преобразования,

• рекомендации по реализации и оптимизации вейвлет-видеокодека на платформе «МУЛЬТИКОР»

были использованы на предприятии АО НПЦ «ЭЛВИС» при создании программного пакета.

Внедрение результатов диссертационной работы Шаронова И.О. позволило улучшить рабочие характеристики программной реализации видеокодека на базе вейвлет-преобразования за счёт сокращения видеопотока по сравнению с видеокодеком Dirac в среднем на 7%.

Внедрение результатов диссертационной работы было выполнено при непосредственном личном участии автора.

Основные результаты диссертационной работы были также использованы при выполнении НИР «Анализ алгоритмов видеоаналитики и их адаптация для платформы МУЛЬТИКОР», №ГР 115071310026 и СЧ НИР «Проведение экспериментальных исследований в части задачи предобработки изображений для применения в системах технического зрения и исследование характеристик алгоритмов кодирования изображений и видео на макетном образце вычислительного модуля».

Председатель комиссии:

Солохина Т.В.

Члены комиссии:

Беляев A.A. Кузнецов Д.А.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.