Исследование переносимости нейросетевых моделей между различными распределениями данных в задаче детектирования объектов тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Никитин Андрей Дмитриевич

  • Никитин Андрей Дмитриевич
  • кандидат науккандидат наук
  • 2022, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 104
Никитин Андрей Дмитриевич. Исследование переносимости нейросетевых моделей между различными распределениями данных в задаче детектирования объектов: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2022. 104 с.

Оглавление диссертации кандидат наук Никитин Андрей Дмитриевич

Введение

Глава 1. Нейросетевые методы обнаружения и распознавания объектов

1.1. Обзор двухэтапных методов детектирования

1.1.1. Архитектура R-CNN

1.1.2. Архитектура Fast R-CNN

1.1.3. Архитектура Faster R-CNN

1.2. Обзор одноэтапных якорных методов детектирования

1.2.1. Метод детектирования YOLO

1.2.2. Метод детектирования SSD

1.2.3. Метод детектирования GFL

1.3. Обзор архитектур нейронных сетей для агрегации признаков

1.3.1. Архитектура Feature Pyramid Network

1.3.2. Архитектура Path Aggregation Network

1.3.3. Архитектура Deep Layer Agregation

1.4. Обзор одноэтапных безъякорных методов детектирования

1.4.1. Метод детектирования CenterNet

1.4.2. Метод детектирования FCOS

1.5. Обзор сверточных нейронных сетей для извлечения признаков

1.5.1. Обзор архитектуры VGG

1.5.2. Обзор архитектуры Inception

1.5.3. Обзор архитектуры ResNet

1.6. Обзор стратегий обучения сверточных нейронных сетей

1.6.1. Стратегия Adaptive Training Sample Selection

1.6.2. Стратегия AutoAssign

1.7. Обзор классификационных функций потерь

1.7.1. Бинарная Перекрестная Энтропия

1.7.2. Фокальная функция потерь

1.8. Обзор метода детектирования YOLOv4

1.9. Выводы

Глава 2. Доменная адаптация

2.1. Обзор базовых методов доменной адаптации

2.2. Обзор методов доменной адаптации на основе дистилляции знаний

2.4.1. Метод дистилляции знаний на основе сближения распределений выходных карт признаков в нейросетевых моделях

2.4.2. Метод дистилляции знаний на основе сближения распределений после функций активации в нейросетевых моделях

2.3. Обзор методов доменной адаптации на основе состязательного обучения

2.4. Предлагаемый метод доменной адаптации с использованием состязательного обучения

2.5. Предлагаемый метод дистилляции знаний для одноэтапных нейросетевых детекторов

2.6. Выводы

Глава 3. Методика генерации синтетических данных для обучения нейросетевых моделей обнаружения и распознавания объектов

3.1. Обзор существующих коллекций данных для задачи обнаружения и распознавания объектов

3.2. Обзор методов генерации изображений

3.2.1. Автоматический кодировщик изображений

3.2.2. Вариационный автоматический кодировщик изображений

3.2.3. Генеративно-состязательные нейросети

3.3. Методика генерации синтетических данных для обучения нейросетевых моделей детектирования объектов

3.4. Выводы

Глава 4. Экспериментальное исследование методов доменной адаптации

4.1. Обзор метрик для оценки качества методов детектирования объектов

4.1.1. Точность и Полнота

4.1.2. F1-мера

4.1.3. Intersection over Union

4.1.4. Average Precision и mean Average Precision

4.2. Экспериментальное сравнение методов детектирования

4.3. Разработка алгоритма состязательного обучения для двухэтапных и одноэтапных методов детектирования

4.4. Постановка экспериментов

4.4.1. Исследование переносимости детекторов между синтетическими и реальными данными

4.4.2. Исследование переносимости метода детектирования YOLOv4 между обычными данными и данными с большой плотностью тумана

4.4.3. Исследование переносимости метода детектирования УОЬОу4 при различных погодных условиях и углов съёмки, но при фиксированной высоте

4.5. Выводы

Заключение

Список литературы

97

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Исследование переносимости нейросетевых моделей между различными распределениями данных в задаче детектирования объектов»

Введение

В современных условиях широко востребованы системы автоматизированного анализа данных, а именно изображений. Использование таких систем имеет массу преимуществ. Реализация систем технического зрения возможна за счёт развития сенсоров, датчиков, высоко производительных вычислителей установленные на мобильные платформы, пилотируемые беспилотные объекты. Из-за востребованности алгоритмов становится возможным их реализация, направленная на различные мобильные платформы (системы автономного вождения, системы помощи водителю, автоматизированный осмотр поверхности воздушных судов) [1; 3; 8; 9]. Наиболее уверенно зарекомендовавшим подходом в системах технического зрения является применение свёрточных нейронных сетей различных архитектур. К основным областям применения нейронных сетей можно отнести анализ данных, распознавание образов, прогнозирование, оптимизация, принятие решений. Нейросети лежат в основе большинства современных систем распознавания и синтеза речи, а также распознавания и обработки изображений. В настоящее время ряд нейросетевых алгоритмов достигли возможности работы в реальном времени с достаточно высокой точностью. Они применяются в некоторых системах навигации, будь то беспилотные автомобили или промышленные роботы. Распознавание объектов на фото и видео с помощью нейронных сетей широко используется в видеонаблюдении, системах «умного дома» или «умного города», системах контроля доступа.

Разумеется, сегодняшние механизмы на основе искусственного интеллекта не умеют «мыслить» и принимать решения на уровне человека. Однако и на этом направлении у систем на основе искусственного интеллекта имеются существенные успехи, позволяя делать то, что не под силу человеку. Например, обрабатывать огромные объемы данных практически в реальном времени. Именно эти возможности стали основой для мощного развития механизмов машинного

обучения в его нынешнем, широко известном виде - глубоких свёрточных нейронных сетей (ГСНС).

В то время как как высокая скорость обработки изображений в реальном времени была достигнута на больших публичных наборах данных, обнаружение объектов в реальном мире по-прежнему сталкивается с большими трудностями. С одной это связано с отсутствием достаточного количества аннотированных реальных данных по конкретной прикладной задаче, необходимых для обучения алгоритмов на основе свёрточных нейронных сетей. С другой - с разницей в условиях съёмки на этапе обучения и применения алгоритма. Особенности углов зрения, внешнего вида объекта, фона, освещения, качества изображения обуславливают так называемый "домен" данных. Преобразование изображений и методов анализа между доменами данных для одного и того же объекта для обеспечения инвариантности работы алгоритмов представляет собой сложную научную проблему. Процесс создания больших аннотированных вручную обучающих выборок именно целевого домена для применения алгоритма требует наличия значительного объема данных и больших затрат времени, поэтому исследователи пытаются разными способами обойти эту проблему. В частности, разработка алгоритма детектирования, инвариантного к домену данных - очень важная и перспективная задача.

В работе предлагается способ применения механизма состязательного обучения для эффективного использования синтезированных изображений вместе с реальным для обучения детектирующих нейронных сетей. За счёт использования состязательного обучения рассматриваемый метод детектирования становится устойчив к домену на уровне представления объекта. Под устойчивостью в данном случае понимается сохранение качества работы алгоритма, при изменении распределения входных данных. Такие результаты недоступны при традиционных способах подготовки алгоритмов обнаружения, что продемонстрировано в экспериментах. Предложенный способ

протестирован для создания алгоритма обнаружения беспилотных летательных аппаратов (БЛА) и на нескольких открытых базах данных.

Цель и задачи диссертации. Целью данной работы является разработка алгоритма обнаружения объектов на изображениях инвариантного к домену данных на основе ГСНС. Для достижения этой цели решаются следующие задачи:

1. Анализ существующих подходов к детектированию объектов и доменной адаптации

2. Разработка методов состязательного обучения для алгоритмов обнаружения объектов на изображениях

3. Разработка архитектуры ГСНС для решения задачи обнаружения объектов, инвариантной к домену-источнику и целевому

4. Формирование методики тестирования алгоритмов обнаружения объектов на изображениях из разных доменов

5. Формирование методики генерации синтетических данных

Научная новизна. В диссертационной работе получены следующие результаты:

• Разработаны новые архитектуры нейросетевых алгоритмов обнаружения объектов на изображениях с добавлением доменных классификаторов, способные работать одновременно на нескольких различных доменах данных и позволяющие значительно повысить точность обнаружения объектов, без потери скорости модели на этапе тестирования

• Предложены методы состязательного обучения повышающие инвариантность представления объектов нейронными сетями и устойчивость самой сети к распределению входных данных.

• Создана методика генерации синтетических данных,

сформированы коллекции данных для обучения и тестирования нейросетевых алгоритмов.

Теоретическая и практическая значимость работы. Теоретическая ценность полученных результатов заключается в решении проблемы невысокой гибкости ГСНС. Нейросетевые алгоритмы склонны запоминать особенности входных данных, адаптироваться к ним и подстраиваться под определённое распределение входных данных. Такой подход демонстрирует высокие результаты работы на данных из одного распределения, однако не гарантируется высокой точности работы при изменении распределения входных данных. В данной работе реализованы методы повышения адаптации нейросетевой архитектуры за счёт повышения инвариантности представления объектов, которая достигается благодаря специальным методам обучения.

Практическая ценность полученных результатов заключается в разработанных программных компонентах для состязательного обучения нейросетевых алгоритмов обнаружения объектов на изображениях и для генерации синтетических данных, в создании баз данных для обучения и тестирования предложенных методов с использованием синтетических изображений. Предложенные алгоритмы расширяет границы применимости ГСНС для решения задачи обнаружения объектов в случаях изменения распределения входных наборов данных.

Разработана методика формирования синтетических данных и создана уникальная база данных для обучения и тестирования нейросетевых алгоритмов обнаружения объектов, инвариантных к домену данных.

Методология и методы исследования. В данной работе проведён анализ предложенной архитектуры нейронной сети на основе алгоритмов компьютерного зрения, методов математической статистики, теории вероятностей, теории игр, вычислительных экспериментов, методов оптимизации, методов математического анализа, методов машинного обучения и теории глубокого обучения.

В качестве базовых методов используются алгоритмы обнаружения объектов на изображениях, в основе которых лежат глубокие свёрточные нейронные сети.

Нейросетевые алгоритмы и модули предобработки и постобработки созданы с помощью библиотеки глубокого обучения PyTorch [53] и программной платформы Darknet.

Экспериментальные исследования проводились с использованием синтетических данных. Для генерации синтетической коллекции изображений использовались языки программирования Python и C++, библиотека для обработки изображений OpenCV, приложение для моделирования реалистичной 3D модели исследуемого объекта 3ds Max.

Апробация работы. Основные результаты работы были представлены в научных публикациях, а также на отечественных и зарубежных конференциях:

• III Всероссийская научно-техническая конференция «Моделирование авиационных систем». Тема доклада: «Технология автоматизации визуального осмотра воздушных судов с помощью дронов». Текст доклада напечатан в сборнике докладов конференции. (2018)

• XII Всероссийская мультиконференция по проблемам управления (МКПУ-2019). Тема доклада: «Средства и алгоритмы автоматизации визуального осмотра воздушного судна с помощью дронов». Текст доклада напечатан в сборнике докладов конференции. (2019)

• XLV Международная молодежная научная конференция «Гагаринские чтения - 2019». Тема доклада: «Технология автоматизации визуального осмотра воздушных судов с помощью дронов». Текст доклада напечатан в сборнике докладов конференции. (2019)

• IV Всероссийская научно-техническая конференция «Навигация, наведение и управление летательными аппаратами». Тема доклада: «Разработка технологии позиционирования беспилотников в закрытых помещениях на основе стационарной системы видеокамер». Текст доклада напечатан в сборнике докладов конференции. (2019)

• IV Всероссийская научно-техническая конференция «МОДЕЛИРОВАНИЕ АВИАЦИОННЫХ СИСТЕМ». Тема доклада:

«Повышения качества алгоритма обнаружения бпла с использованием механизма состязательного обучения для адаптации синтетических данных». (2020)

• Юбилейная научно-техническая конференция «Авиационные системы в XXI веке». Темы докладов: «Исследование возможностей предварительной кластеризации объектов на изображениях для повышения качества работы нейросетевых детекторов» и «Исследование работы нейросетевых детекторов объектов на изображениях для разно-сюжетных выборок данных». Тексты докладов напечатаны в сборнике докладов конференции (2021)

Достоверность и обоснованность полученных результатов подтверждена результатами экспериментальных исследований, в том числе сравнением с известными алгоритмами, а также опытом практического применения алгоритмов в составе программно-алгоритмических комплексов обработки изображений.

Публикации. По теме диссертации опубликовано 4 статьи в изданиях из перечня ВАК или входящих в базу данных Scopus:

1. Blokhinov Y.B., Gorbachev V.A., Nikitin A.D., Skryabin S.V. Technology for the Visual Inspection of Aircraft Surfaces Using Programmable Unmanned Aerial Vehicles. Journal of computer and systems sciences international N 58 V 6 p. 960-968, 2019.

2. Gorbachev V.A., Blokhinov Yu.B., Nikitin A.D., Andrienko E.E. Technology for indoor drone positioning based on CNN detector. CEUR Workshop Proceedings, Vol. 2485, p. 280-284, 2019.

3. Gorbachev V., Nikitin A., Basharov, I. Adversarial Learning for Effective Detector Training via Synthetic Data. CEUR Workshop Proceedings, Vol. 2744, 2020.

4. Блохинов Ю.Б., Горбачев В.А., Ракутин Ю.О., Никитин А.Д. Разработка алгоритма семантической сегментации аэрофотоснимков реального времени. Компьютерная оптика. 2018. Т. 42. № 1. С. 141-148.

Личный вклад. Все результаты диссертационной работы получены либо лично автором, либо при его непосредственном участии. Результаты исследования применялись в государственном научном центре ФАУ

«Государственный научно-исследовательский институт авиационных систем» при выполнении плановых научно-исследовательских работ, в частности работ по обнаружению и отслеживанию объектов по проектам Фонда Перспективных Исследований Российской Федерации.

Структура диссертации. Диссертация общим объёмом 104 страницы состоит из введения, четырёх глав, заключения, содержит 49 рисунков, 5 таблиц и перечень используемой научно-технической литературы из 81 наименования. Основные положения, выносимые на защиту:

1. Новый метод состязательного обучения для алгоритмов обнаружения объектов на изображениях, позволяющий существенно повысить точность.

2. Модифицированные архитектуры ГСНС для решения задачи обнаружения объектов, инвариантных к домену-источнику и целевому.

3. Методика тестирования алгоритмов обнаружения объектов на изображениях из разных доменов.

4. Методика генерации синтетических данных, позволяющая создавать необходимое число изображений для обучения нейросетевых алгоритмов детектирования.

Глава 1.

Нейросетевые методы обнаружения и распознавания объектов

Детектирование объектов на изображении (англ. Object detection) - задача, в которой требуется по исходному изображению определить местоположение и классы различных объектов. Локализация происходит путем нахождения четырех координат ограничивающих прямоугольников каждого из объектов, а классификация - путем присвоения каждому найденному объекту метки класса. Данная задача близка к смежным задачам в области компьютерного зрения, таким как классификация, классификация с локализацией и сегментации с некоторыми ключевыми отличиями. В отличие от обычной классификации определяется не только метка класса объекта, но и его расположение на изображении. В классификации с локализацией подразумевается, что объект на изображении один, в то время как в задаче детектирования на изображении может быть произвольное число объектов. В задаче сегментации определяется принадлежность каждого пикселя изображения тому или иному классу, в то время как в детектировании достаточно определить координаты ограничивающей рамки каждого объекта.

Особый интерес в задаче детектирования предоставляется сильно структурированным объектам (автомобили, лица, велосипеды и т.п.), а также сочлененным объектам (люди, лошади, коровы и т.п.). При этом классификация обобщенных сцен (небо, трава, облако и т.п.) уходит на второй план и появляется зачастую в задачах семантической сегментации.

Задача детектирования объектов имеет ряд трудностей [7]. Прежде всего необходимо определить наличие объектов на изображении. Далее необходимо для каждого из этих объектов выбрать класс из списка разрешенных. Из-за комбинации этих двух факторов данная задача является более сложной, чем задача классификации, где заведомо известно, что на представленном изображении находится лишь один объект. Более сложной задачей, чем задача детектирования является задача семантической сегментации. Она заключается в определении

принадлежности каждого пикселя какому-либо из классов. Самой сложной задачей обнаружения объектов на снимках является задача сегментации сущностей. В ней необходимо не только провести классификацию каждого из пикселей, но и определить номера объектов, в случае, если несколько объектов одного и того же класса пересекаются вместе и формируют единое облако точек. В данном случае необходимо определить какие пиксели принадлежат каждому из объектов в отдельности. Наглядно примеры разметки для каждой из задач представлены на рис. 1.

Семантическая Классификация Детектирование Сегментация сегментация + локализация объектов сущностей

Ш- _ ш

шт

трава, , собака, собака, собака, собака,

Л КО Ш К<1

у^дерево неоо у ^_ _у у кошка кошка у

Пиксели Один объект Несколько объектов

Рис. 1 - Классификация задач компьютерного зрения с примерами разметки Основная цель в задаче детектирования - разработать алгоритм, с приемлемой для задачи обобщающей способностью, с удовлетворительным балансом между точностью распознавания и скоростью работы. Под обобщающей способностью подразумевается устойчивость к вариативности входных данных и возможность экстраполировать предсказания на ранее не встречавшиеся объекты. Точность и качество подразумевают собой способность алгоритма обнаруживать объекты и правильно определять их класс. Эффективность работы - время, требования по памяти и количество вычислений, требующееся алгоритму для получения предсказания. В зависимости от области применения алгоритма внимание будет уделяться тому или иному фактору. К примеру, если требуется крайне точные предсказания (к примеру, в медицинской области) стоит разрабатывать алгоритм с высокой точностью, который, однако работает медленно. С другой стороны, в задачах управления автомобилем, решения требуется

применять в реальном времени. Таким образом время работы алгоритма должно удовлетворять этому условию. Однако в этой задаче нельзя чрезмерно жертвовать точностью предсказаний.

Трудности в точности предсказаний проистекают от трех основных причин:

1. Широкий спектр внутриклассовых вариаций. Объект одного и того же класса может принимать различные формы и цвета. Примером являются классы кошка с 200 породами и собака с 400 породами. Неоднозначны также и неодушевленные классы к примеру автомобили, которые могут подразделяться на седаны, внедорожники, лимузины, грузовики, автобусы и т.п. Наличие большой внутриклассовой вариативности требует от алгоритма большой обобщающей способности для получения корректного предсказания.

2. Условия съемки. В данную категорию входят самые различные условия, начиная с времени суток, заканчивая погодными условиями. Среди них также можно выделить положение объекта, его размер, удаленность, окклюзию, затененность, смаз на снимке и наличие помех. Подобные вариации могут сделать один и тот же объект неузнаваемым не только для алгоритма, но в некоторых случаях даже для человека.

3. Широкий спектр классов. Число распознаваемых классов - сложный вопрос для многих исследователей. Разбиение цельных классов на подклассы позволяет в некоторой степени снизить влияние внутриклассовых вариаций. Однако в данном случае необходимо учитывать, что количество объектов каждого из классов внутри коллекции данных должно быть сбалансировано с другими классами. Это приводит к необходимости увеличения обучающей выборки, а также к дополнительному исследованию каждого из классов для дальнейшего разбиения.

Требования к эффективности алгоритмов появляются ввиду того, что их использование зачастую подразумевается на переносных устройствах (телефоны, умные часы и пр.), а также на передвижных объектах, не обладающих большой вычислительной мощностью (автомобили, дроны). Таким образом необходимо

уменьшать вычислительную сложность алгоритма, не жертвуя его точностью и обобщающей способностью.

При этом, алгоритм также должен быть расширяемым, в том смысле, что наличие ранее не знакомых ему объектов не должно сильно негативно сказываться на качестве работы. Во многих случаях ранее незнакомый объект можно сравнить с известными объектами и предсказать класс наиближайший к ним.

Именно решение подобных проблем позволило методам на основе нейронных сетей опередить многие классические методы. Возможность увеличивать обобщающую способность и точность предсказаний за счет простого увеличения обучающей выборки оказалась очень ценной.

Ввиду подобной положительной связи между увеличением числа данных для обучения и качеством результирующей модели, имеет смысл искусственное расширение обучающих выборок за счёт создания синтетических изображений путём рендеринга трёхмерных моделей изучаемых объектов. Однако непосредственное применение таких данных, как правило, не позволяет существенно повысить качество работы алгоритмов. Это связано с различием информации о доменах этих изображений. В задаче обнаружения объектов информация о доменах содержится как на уровне всего изображения, так и на уровне объекта.

Процесс детектирования состоит из следующих основных частей(рис.2):

1. Сеть извлечения признаков (backbone).

2. Подсеть агрегации признаков (neck).

3. Голова детектора, отвечающая за локализацию и классификацию для одноэтапных методов (head).

4. Корректировка координат внутри предсказанных областей и классификация (для двухэтапных детекторов)

Двух налиме Meioju лпгкшровяиия

I | Входное изображение

■ I..............

Рис.2. Иллюстрация архитектуры нейросетевых детекторов.

1.1. Обзор двухэтапных методов детектирования.

1.1.1. Архитектура R-CNN.

Одним из первых подходов, применяемых для локализации и классификации объекта на картинке, является метод R-CNN (Region Convolution Neural Network) [21]. Его архитектура состоит из нескольких последовательно выполняемых шагов и проиллюстрирована на рис.3:

1. Определение набора гипотез.

2. Извлечение из предполагаемых регионов признаков с помощью свёрточной нейронной сети и их кодирование в вектор.

3. Классификация объекта внутри гипотезы на основе вектора из шага 2.

4. Улучшение (корректировка) координат гипотезы.

5. Все повторяется, начиная с шага 2, пока не будут обработаны все гипотезы с шага 1.

R-CNN: Регионы с СНС-призаками

1. Входное 2. Предложение 3. Вычисление 4 Классификация

изображение регионов СНС признаков регионов

(около 2000)

Рис.3. Иллюстрация работы архитектуры R-CNN.

На начальном этапе сторонним алгоритмом селективного поиска (Selective Search) предлагаются всевозможные гипотезы (представляют собой прямоугольную область) нахождения объектов на изображении, которые частично друг друга перекрывают. Каждая гипотеза из предыдущего шага независимо и по отдельности друг от друга поступает на вход свёрточной нейронной сети. Главной задачей сети является кодирование входного изображения в векторное представление, которое извлекается из последнего полносвязного слоя. Так на выходе получается 4096-размерное векторное представление. После получения характеризующего гипотезу вектора становится возможна ее дальнейшая обработка. Для определения, какой именно объект находится в предполагаемом регионе, используется классический метод опорных векторов (SVM, Support Vector Machine), который должен предсказывать принадлежность к одному из классов наперёд заданного множества или идентифицировать его как фон. Таким образом, выход метода опорных векторов представляет собой вектор размера N + 1, где N -количество классов в наборе данных. N элементов данного вектора отображают уверенность в наличии и принадлежности объекта в предлагаемом регионе к одному из N классов, N+1 - уверенность в отсутствии объекта.

Так как гипотезы являются неточно сгенерированными областями наличия объекта, то координаты не обладают высокой точностью. Поэтому вектор признаков изображения дополнительно обрабатываются линейной регрессией для уточнения положения ограничивающих рамок объекта.

Основными недостатками данного подхода являются:

1. Гипотезы, предложенные на шаге 1, могут частично дублировать друг друга. Разные гипотезы могут состоять из одинаковых частей, а каждая такая гипотеза отдельно обрабатывалась нейронной сетью. Большая часть запусков сети дублирует друг друга без надобности.

2. Алгоритм нельзя использовать в режиме реального времени, поскольку на обработку 1 изображения (кадра) тратится ~53 секунды (при использовании видеокарты NVIDIA Titan Black).

3. Алгоритм выделения гипотез никак не обучается, а поэтому дальнейшее улучшение качества почти невозможно (из-за наличия плохих гипотез).

4. Все основные части архитектуры обучаются отдельно и независимо, что делает модель неудобной и долговременной в обучении, понижает качество обучения модели.

1.1.2. Архитектура Fast R-CNN.

Архитектура Region Convolution Neural Network (R-CNN) оказалась слишком медленной для использования в прикладных задачах и не отличалась эффективностью. Улучшение алгоритма детектирования было представлено в виде нового метода Fast R-CNN[22]. Процесс обработки изображения изменился в трех ключевых пунктах:

1. Извлечение карты признаков производится для всего изображения, а не отдельно для каждой гипотезы.

2. Выделение признаков для каждой гипотезы с общей карты признаков.

3. Замена метода опорных векторов на многопеременную логистическую функцию (softmax).

В изначальной концепции R-CNN каждая предложенная гипотеза по отдельности обрабатывается с помощью свёрточной нейронной сети (одна из причин неэффективности метода). Для решения этой проблемы был разработан

слой выделения регионов интереса (RoI, Region of Interest). Этот слой позволяет единожды обрабатывать изображение целиком с помощью нейронной сети, получая на выходе карту признаков, которая далее используется для обработки каждой гипотезы. Основной задачей слоя выделения регионов интереса является формирование вектора признаков с наперёд заданным размером с общей карты признаков для каждой гипотезы произвольной прямоугольной формы. Далее каждое векторное представление подаётся на вход слою многопеременной логистической функции с N+1 выходом для классификации и полносвязному слою для предсказания регрессионных параметров. Данный подход позволяет объединить все основные компоненты архитектуры, кроме метода селективного поиска, и обучать одновременно все параметры путём сложения функций потерь классификации и регрессии с некоторым множителем.

1.1.3. Архитектура Faster R-CNN.

Ещё одним важным недостатком архитектуры Region Convolution Neural Network был алгоритм селективного поиска, основанный на эвристиках, что не гарантировало наилучший способ первичного предсказания области интереса. В последующей модификации алгоритма, которую назвали Faster R-CNN[59], алгоритм селективного поиска заменили на нейронную подсеть предсказания регионов (RPN, Region Proposal Network). Обучение такой сети предоставляет более точные области интереса с точки зрения наличия объекта и регрессионных переменных. Благодаря подсети предсказания регионов архитектура представляет собой единую обучаемую нейросетевую модель, все компоненты которой адаптируются под решаемую задачу.

Рис.4. Иллюстрация работы архитектуры Faster R-CNN.

Архитектура представляет собой следующую последовательность операций, качественно представленную на рис.4: выделение карты признаков изображения с помощью свёрточной подсети, предсказание областей интересов с помощью подсети предсказания регионов интереса на основе карты признаков и уточнение гипотез.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Никитин Андрей Дмитриевич, 2022 год

Список литературы

1. Блохинов Ю.Б., Горбачев В.А., Никитин А.Д. Разработка технологии позиционирования беспилотников в закрытых помещениях на основе стационарной системы видеокамер // Тезисы докладов. Навигация, наведение и управление летательными аппаратами. - 2019. - С. 125.

2. Блохинов Ю.Б., Горбачев В.А., Никитин А.Д. Технология автоматизации визуального осмотра воздушных судов с помощью дронов // Сборник тезисов докладов конференции Моделирование Авиационных Систем. - 2018. - С. 125.

3. Блохинов Ю.Б., Горбачев В.А., Никитин А.Д., Скрябин С.В., Технология визуального контроля поверхностей воздушных судов с применением программируемых беспилотных летательных аппаратов // Известия Российской академии наук. Теория и системы управления. - 2019. - №2 6. - С. 119-127.

4. Блохинов Ю.Б., Горбачев В.А., Ракутин Ю.О., Никитин А.Д. Разработка алгоритма семантической сегментации аэрофотоснимков реального времени // Компьютерная оптика. - 2018. - Т. 42, № 1. - С. 141-148.

5. Горбачев В.А., Никитин А.Д., Башаров И.В. Повышения качества алгоритма обнаружения БЛА с использованием механизма состязательного обучения для адаптации синтетических данных. Сборник тезисов докладов IV Всероссийской научно-технической конференции Моделирование Авиационных Систем. Москва. - 2020. - С. 115-116.

6. Горбачев В.А., Никитин А.Д., Фазилиев Т.Ш., Долгая Л.В. Исследование работы нейросетевых детекторов объектов на изображениях для разно-сюжетных выборок данных. Тезисы докладов юбилейной Всероссийской научно-технической конференции Авиационные системы в XXI веке. Москва. - 2022. - С. 259-260.

7. Горбачев В.А., Никитин А.Д., Шарафутдинов Я.Н. Исследование возможностей предварительной кластеризации объектов на изображениях

для повышения качества работы нейросетевых детекторов. Тезисы докладов юбилейной Всероссийской научно-технической конференции Авиационные системы в XXI веке. Москва. - 2022. - С. 258-259.

8. Никитин А.Д. Технология автоматизации визуального осмотра воздушных судов с помощью дронов. Сборник тезисов докладов XLV Международной молодежной научной конференции Гагаринские чтения - 2019. Московский авиационный институт (национальный исследовательский университет). 2019. С. 231.

9. Никитин А.Д., Горбачев В.А. Средства и алгоритмы автоматизации визуального осмотра воздушного судна с помощью дронов. Материалы XII мультиконференции по проблемам управления (МКПУ-2019). Материалы XII мультиконференции. - 2019. - С. 157-158.

10. Bochkovskiy A., Wang CY., Liao HYM. YOLOv4: Optimal speed and accuracy of object detection // arXiv preprint arXiv:2004.10934, 2020.

11. Cai Q., Pan Y., C. Ngo and Tian X., Duan L., Yao T. Exploring Object Relation in Mean Teacher for Cross-Domain Detection // 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). - 2019. - P. 11449-11458.

12. Chen Y., Li W., Sakaridis C., Dai D., Van Gool L. Domain adaptive Faster rcnn for object detection in the wild // In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. - 2018. - P. 3339-3348.

13. CordtsM., OmranM., RamosS. The Cityscapes Dataset for Semantic Urban Scene Understanding // arXiv preprint arXiv:1604.01685, 2016.

14. DeVries T., Taylor G. Improved regularization of convolutional neural networks with CutOut // arXiv preprint arXiv: 1708.04552, 2017.

15. Duan K., Bai S., Xie L., Qi H., Huang Q., Tian Q. CenterNet: Keypoint triplets for object detection // In Proceedings of the IEEE International Conference on Computer Vision (ICCV). - 2019. - P. 6569-6578.

16. Du D., Qi Y., Yu H., Yang Y., Duan K., Li G., Zhang W., Huang Q., Tian Q. The unmanned aerial vehicle benchmark: Object detection and tracking // arXiv preprint arXiv:1804.00518, 2018.

17. Everingham M. The Pascal Visual Object Classes (VOC) Challenge // International Journal of Computer Vision. - 2010. - vol. 88. - P. 303-338.

18. Ganin Y., Lempitsky V. Unsupervised Domain Adaptation by Backpropagation // arXiv preprint arXiv: 1409.7495, 2015.

19. Geiger A. Vision meets Robotics: The KITTI Dataset. // International Journal of Robotics Research (IJRR). - 2013.

20. Ghiasi G., Lin TY., Le QV. DropBlock: A regularization method for convolutional networks. // In Advances in Neural Information Processing Systems (NIPS). -2018. - P. 10727-10737.

21. Girshick R., Donahue J., Darrell T., and Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation // In CVPR. - 2014. - P. 1, 3, 4, 8.

22. Girshick R. Fast R-CNN // In Proceedings of the IEEE International Conference on Computer Vision (ICCV). - 2015. - P. 1440-1448.

23. Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., andBengio, Y. Generative adversarial nets // NIPS'2014. - 2014.

24. Gorbachev V.A., Blokhinov Yu.B., Nikitin A.D., Andrienko E.E. Technology for indoor drone positioning based on CNN detector // Proceedings of the 29th international conference on computer graphics and vision. Graphicon-2019. CEUR Workshop Proceedings. - Bryansk. - 2019. - vol. 2485. - P. 280-284.

25. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // In the IEEE Conference on Computer Vision and Pattern Recognition. - 2016.

26. He K., Zhang X., Ren S., Sun J. Delving deep into rectifiers: Surpassing humanlevel performance on ImageNet classification // In Proceedings of the IEEE International Conference on Computer Vision (ICCV). - 2015. - P. 1026-1034.

27. He K., Zhang X., Ren S., Sun J. Spatial pyramid pooling in deep convolutional networks for visual recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). - 2015. - vol. 37(9). - P.1904-1916, 2015.

28. Hinton G. E., Salakhutdinov R. R. Reducing the dimensionality of data with neural networks // Science. - 2006. - vol. 313, №. 5786. - P. 504-507.

29. Hinton G., Vinyals O., Dean J. Distilling the Knowledge in a Neural Network // arXiv preprint arXiv: 1503.02531, 2015.

30. Hoffman J., Tzeng E., Park T., Zhu JY., Isola P., Saenko K., Efros AA., Darrell T. Cycada: Cycle-consistent adversarial domain adaptation // arXiv preprint arXiv:1711.03213, 2017.

31. Howard A., Sandler M., Chu G., Chen LC., Chen B., Tan M., Wang W., Zhu Y., Pang R., Vasudevan V. et al. Searching for MobileNetV3 // In Proceedings of the IEEE International Conference on Computer Vision (ICCV). - 2019.

32. Howard A., Zhu M., Chen B., Kalenichenko D., Wang W., Weyand T., Andreetto M., Adam H. MobileNets: Efficient convolutional neural networks for mobile vision applications // arXiv preprint arXiv:1704.04861, 2017.

33. Hu J., Shen L., Sun G. Squeeze-and-excitation networks // In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). -2018. -P. 7132- 7141.

34. Ioffe S., Segedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift // arXiv preprint arXiv:1502.03167, 2015.

35. Jialin SJ. Yang Q. A Survey on Transfer Learning. // IEEE Transactions on Knowledge and Data Engineering. - 2010. - vol. 22, № 10. - P. 1345-1359.

36. Khodabandeh M., Vahdat A., Ranjbar M., William G. A Robust Learning Approach to Domain Adaptive Object Detection // arXiv preprint arXiv:1904.02361, 2019.

37. Klambauer G., Unterthiner T., Mayr A., Hochreiter S. Self-normalizing neural networks // In Advances in Neural Information Processing Systems (NIPS). -2017. - P. 971-980.

38. Kullback S. Information Theory and Statistics. - New York : Wiley, 1959.

39. Kuznetsova A., Rom H., Alldrin N., et al. The Open Images Dataset // International Journal of Computer Vision. - 2020. - vol. 128. - P. 1956-1981.

40. Larsson G., Maire M., Shakhnarovich G. FractalNet: Ultra-deep neural networks without residuals // arXiv preprint arXiv: 1605.07648, 2016.

41. Li X., Wang W., Wu L., Chen S., Hu S., Li J., Tang J., Yang J. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection // Advances in Neural Information Processing Systems (NeurIPS). - 2020. - vol. 33. - P. 21002-21012.

42. Lin TY., Dollar P., Girshick R., He K., Hariharan B., Belongie S. Feature pyramid networks for object detection // In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). - 2017. - P. 2117-2125.

43. Lin TY., Goyal P., Girshick R., He K., Dollar P. Focal loss for dense object detection // In ICCV. - 2017.

44. Lin TY., Maire M., Belongie S., Hays J., Perona P., Ramanan D., Russakovsky O., Deng, J., Su, H. ImageNet Large Scale Visual Recognition Challenge // International Journal of Computer Vision. - 2015. - vol. 115. - P. 211-252. ar P., Zitnick CL. Microsoft COCO: Common objects in context // In Proceedings of the European Conference on Computer Vision (ECCV). - 2014. - P. 740-755.

45. Liu S., Qi L., Qin H., Shi J., Jia J. Path Aggregation Network for Instance Segmentation // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. - 2018. - P. 8759-8768.

46.Liu W., Anguelov D., Erhan D., Christian S., Reed S., Fu CY., Berg A. C. SSD: single shot multibox detector // In ECCV. - 2016.

47. Maas A., Hannun A., Ng A. Rectifier nonlinearities improve neural network acoustic models // In Proceedings of International Conference on Machine Learning (ICML). - 2013. - vol. 30. - P. 3.

48. Misra D. Mish: A self regularized non-monotonic neural activation function // arXiv preprint arXiv: 1908.08681, 2019.

49. Nene S. A., Nayar S. K., Murase H. Columbia Object Image Library: COIL-100 // Technical Report CUCS-006-96, Department of Computer Science, Columbia University. - 1996.

50. Nguyen-Meidine LT., Belal A., Kiran M., Dolz J., Blais-Morin LA., Granger E. Knowledge Distillation Methods for Efficient Unsupervised Adaptation Across Multiple // Image Vis. Comput.. - 2021. - vol. 108. - P. 104096.

51. Nguyen-Meidine LT., Granger E., Kiran M., Dolz J., Blais-Morin LA. Joint Progressive Knowledge Distillation and Unsupervised Domain Adaptation // arXiv preprint arXiv:2005.07839, 2020.

52. Nikitin A., Gorbachev V., Basharov I. Adversarial Learning for Effective Detector Training via Synthetic Data // Proceedings of the 30th international conference on computer graphics and vision. Graphicon-2020. CEUR Workshop Proceedings. -Saint Petersburg. - 2020. - vol. 2744.

53. Paszke A., et al. PyTorch: An Imperative Style, High-Performance Deep Learning Library // Advances in Neural Information Processing Systems. -2019. - vol. 32, - P. 8024-8035.

54. Pu, Y., Z. Gan, R. Henao, X. Yuan, C. Li, A. Stevens, and L. Carin. Variational autoencoder for deep learning of images, labels and captions // Advances in Neural Information Processing Systems. - 2016. - P. 2352-2360.

55. Ramachandran P., Zoph B., Le Q. Searching for activation functions // arXiv preprint arXiv:1710.05941, 2017.

56. Redmon J., Divvala S., GirshickR., Farhadi A. You only look once: Unified, realtime object detection // In Proceedings of the IEEE conference on computer vision and pattern recognition. - 2016 - P. 779-788.

57. Redmon J., Farhadi A. Yolo9000: better, faster, stronger // In Proceedings of the IEEE conference on computer vision and pattern recognition. - 2017. - P. 72637271.

58. Redmon J., Farhadi A. Yolov3: An incremental improvement // arXiv preprint arXiv:1804.02767, 2018.

59. Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks // In Advances in Neural Information Processing Systems (NIPS). - 2015. - P. 91-99.

60. Russakovsky O., Deng, J., Su, H. ImageNet Large Scale Visual Recognition Challenge // International Journal of Computer Vision. - 2015. - vol. 115. - P. 211-252.

61. Sakaridis C., Dai D., Van Gool L. Semantic Foggy Scene Understanding with Synthetic Data // International Journal of Computer Vision. - 2018. - vol. 126. -P. 973-992.

62. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // In ICLR. - 2015.

63. Singh S., Krishnan S. Filter response normalization layer: Eliminating batch dependence in the training of deep neural networks // arXiv preprint arXiv:1911.09737, 2019.

64. Srivastava N., Hinton G., Krizhevsky A., Sutskever I., Salakhutdinov R. DropOut: A simple way to prevent neural networks from overfitting // The journal of machine learning research. - 2014. - vol. 15(1). - P. 1929-1958.

65. Szegedy C., Liu W., Jia Y., Sermanet P., Reed S., Anguelov D., Erhan D., Vanhoucke V., Rabinovich A. Going deeper with convolutions // In CVPR. - 2015.

66. Tan M., Pang R., Le Q. EfficientDet: Scalable and efficient object detection // In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). - 2020.

67. Tarvainen A., Valpola H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results. // NIPS. - 2017.

68. Tian Z., Shen C., Chen H., He T. FCOS: Fully convolutional one-stage object detection // In Proceedings of the IEEE International Conference on Computer Vision (ICCV). - 2019. - P. 9627-9636.

69. Tompson J., Goroshin R., Jain A., LeCun Y., Bregler C. Efficient object localization using convolutional networks // In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). - 2015. - P. 648-656.

70. Udacity. An open source self-driving car, 2017.

71. Wang CY, Liao HYM., Wu YH, Chen PY, Hsieh JW., Yeh IH. CSPNet: A new backbone that can enhance learning capability of cnn // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshop (CVPR Workshop). - 2020.

72. Woo S., Park J., Lee JY., Kweon IS. CBAM: Convolutional block attention module // In Proceedings of the European Conference on Computer Vision (ECCV). -2018. - P. 3-19.

73. Xia GS., Bai X., Ding J., Zhu Z., Belongie S., Luo J., Datcu M., Pelillo M., Zhang L. "Dota: A large-scale dataset for object detection in aerial images" // CVPR, 2018.

74. Yao Z., Cao Y., Zheng S., Huang G,, Lin S. Cross-iteration batch normalization // arXiv preprint arXiv:2002.05712, 2020.

75. Yu F., Wang D., Shelhamer E., Darrell T. Deep layer aggregation // In CVPR. -2018.

76. Yun S., Han D., Oh SJ., Chun S., Choe J., Yoo Y. CutMix: Regularization strategy to train strong classifiers with localizable features // In Proceedings of the IEEE International Conference on Computer Vision (ICCV). - 2019. - P. 6023-6032.

77. Zhang S., Chi C., Yao Y., Lei Z., Li SZ. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection // arXiv preprint arXiv:1912.02424, 2019.

78. Zhang H., Cisse M., Dauphin Y., Lopez-Paz D. MixUp: Beyond empirical risk minimization // arXiv preprint arXiv: 1710.09412, 2017.

79. Zhang H., Dana K., Shi J., Zhang Z., Wang H., Tyagi A., Agrawal A. Context encoding for semantic segmentation // In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). - 2018. - P. 7151-7160.

80. Zhu B., Wang J., Jiang Z., Zong F., Liu S., Li Z., Sun J. Autoassign: Differentiable label assignment for dense object detection // arXiv preprint arXiv: 2007.03496, 2020.

81. Zhu P., Wen L., Du D., Bian X., et al. Visdrone-det 2018: The vision meets drone object detection in image challenge results // ECCV Vision Meets Drone Workshop, 2018.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.