Дешифрирование и векторизация аэро- и космофотоснимков методами машинного обучения для обновления геопространственной информации тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Емельянов Антон Владимирович

  • Емельянов Антон Владимирович
  • кандидат науккандидат наук
  • 2025, «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 98
Емельянов Антон Владимирович. Дешифрирование и векторизация аэро- и космофотоснимков методами машинного обучения для обновления геопространственной информации: дис. кандидат наук: 00.00.00 - Другие cпециальности. «Московский физико-технический институт (национальный исследовательский университет)». 2025. 98 с.

Оглавление диссертации кандидат наук Емельянов Антон Владимирович

Введение

Глава 1. Анализ существующих современных методов сегментации и

векторизации аэро-и космофотоснимков

1.1 Семантическая сегментация спутниковых изображений

1.1.1 Свёрточные нейронные сети для семантической сегментации

1.1.2 Графовая сверточная нейронная сеть

1.2 Методы извлечения контуров зданий со спутниковых изображений

1.2.1 Нейросетевые подходы

1.2.2 Наборы данных со спутниковыми снимками

1.3 Обучение с подкреплением

1.4 Выводы

Глава 2. Усовершенствование извлечения контуров зданий с

помощью методов регуляризации

2.1 Математическая постановка задач

2.1.1 Задача семантической сегментации

2.1.2 Задача векторизации

2.2 Извлечение контуров зданий с использованием свойства

линейной связности

2.2.1 Сегментация экземпляров с помощью Mask R-CNN

2.2.2 Применение регуляризации к предсказаниям

2.3 Анализ взаимосвязи пикселей для извлечения контуров зданий

2.3.1 Бинарная сегментация с U-netFormer

2.3.2 Применение регуляризации к предсказаниям

Стр.

2.4 Извлечения контуров зданий с помощью методов многоэтапной регуляризации

2.4.1 Семантическая сегментация с U-NetFormer

2.4.2 Применение разработанного метода регуляризации

2.5 Результаты работы методов

2.5.1 Метрики оценки

2.5.2 Эксперимент

2.6 Выводы

Глава 3. Нейросетевой алгоритм на основе обучения с

подкреплением для векторизации изображений дистанционного зондирования Земли

3.1 Архитектура системы

3.2 Оптимизация обучения с подкреплением

3.2.1 Усовершенствованный алгоритм DQN

3.2.2 Реализация оптимизации проксимальной политики

3.3 Система вознаграждений

3.4 Результаты проведённых экспериментов

3.4.1 Метрики оценки

3.4.2 Эксперимент

3.5 Выводы

Глава 4. Семантическая сегментация изображений дистанционного зондирования на основе визуального трансформера и графовой нейронной сети

4.1 Выборка SVAI

4.2 Архитектура нейросетевой модели

4.2.1 Извлечение глубоких признаков

4.2.2 Представление графа изображения

Стр.

4.2.3 Кластеризация графовых нейронных сетей

4.3 Результаты

4.4 Выводы

Заключение

Словарь терминов

Список литературы

Список рисунков

Список таблиц

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Дешифрирование и векторизация аэро- и космофотоснимков методами машинного обучения для обновления геопространственной информации»

Введение

Число задач, в которых требуется актуальное и достоверное геоинформационное обеспечение расширяется, увеличивается с каждым годом. Основным источником геоинформационного обеспечения в настоящее время является аэро- и космофотосъёмка. Однако сложность первичного дешифрирования аэро- и космических снимков вызывает значительное количество ошибок и создаёт временную задержку в доставке актуальных векторных карт потребителям геоинформационных данных.

С другой стороны, в последнее десятилетие произошёл технологический и научный прорыв в методах обработки изображений, который связан с появлением высокопроизводительных массово-параллельных вычислителей и средствами эффективного обучения глубоких свёрточных нейронных сетей. Несмотря на значительный прогресс нейросетевых методов, существующие на текущий момент методы не обеспечивают качества обработки спутниковых и аэрофотоснимков, сравнимого с качеством построения векторных карт человеком-оператором.

Данный факт обусловливает актуальность и создаёт предпосылки для разработки методов и алгоритмов интеллектуального анализа аэро- и космоснимков для обновления и векторизации геопространственной информации в обеспечение создания отечественного программного комплекса обновления картографического обеспечения.

Развитие методов семантической сегментации и векторизации аэро- и кос-мофтоснимков, берущее начало на заре компьютерного зрения, прошло последовательную эволюцию от аналитических методов к глубоким сверточным сетям, где ключевую роль сыграло наращивание вычислительных возможностей. Аналитические методы сегментации аэрофотоснимков включают пороговые алгоритмы (Оцу, адаптивное пороговое разделение), операторы выделения краев (Собеля, Кэнни) и морфологические операции (эрозия, дилатация). Методы векторизации основаны на алгоритмах аппроксимации контуров (Рамера-Дугласа-Пекера), ске-

летизации (метод медиальной оси, алгоритм Чжана-Суэня) и регуляризации через минимизацию энергетических функционалов. Для анализа текстур применяются статистики Харалика и матрицы смежности, позволяющие выделять однородные зоны по спектральным и пространственным признакам.

Основу современных исследований составляют работы в области семантической сегментации, где фундаментальный вклад внесли Дж. Лонг с разработкой полностью сверточных сетей (FCN), О. Роннебергер с архитектурой U-Net, специально оптимизированной для биомедицинских и спутниковых изображений, а также Л. Чэнь с серией моделей DeepLab. Параллельно развивается направление детектирования объектов на снимках, где значимыми являются работы Р. Гирши-ка по R-CNN, Дж. Редмона по YOLO и В. Лю по SSD-архитектурам. В области прямого прогнозирования векторных данных перспективные разработки связаны с применением графовых нейронных сетей и методов обучения с подкреплением, где можно отметить исследование Я. Лина по распознаванию инженерных чертежей. Для решения специализированных задач геоинформатики сохраняют актуальность классические алгоритмы машинного обучения, такие как случайный лес и метод k-ближайших соседей, теоретические основы которых заложены в работах А.С. Потапова по искусственному интеллекту и Д. Черниховского по применению k-NN для оценки лесных массивов. Данные алгоритмы позволили достигнуть высокого качества решения задач.

Целью данной работы является разработка методов по повышению качества дешифрирования и векторизации аэрокосмических изображений земной поверхности на основе машинного обучения в области разработки интеллектуальных методов анализа и обновления геопространственной информации.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Провести анализ существующих современных методов сегментации и векторизации аэро- и космофотоснимков.

2. Разработать метод точного воссоздания полигональных границ зданий для создания векторизованной маски для использования в различных приложениях.

3. Разработать методику обучения нейросетевых алгоритмов векторизации аэро- и космоснимков на основе технологии обучения с подкреплением.

4. Разработать метод сегментации аэрофотоснимков с применением теории графов для использования существующих связей между объектами и областями на снимках.

5. Собрать выборку, включающую в себя аэро- и космоснимки из открытых источников, а также полученных в ходе натурных экспериментов, с целью проведения вычислительных испытаний для разработанных методов.

Научная новизна:

1. Впервые разработан метод сегментации и векторизации спутникового снимка для построения иерархического графа семантической разметки изображения, учитывающего не только семантическую роль объектов на изображении, но и связи и взаимоотношения между ними.

2. Впервые разработан алгоритм сегментации и векторизации снимка, имитирующий логику и действия оператора-разметчика и развивающий методы обучения с подкреплением.

3. Создана обширная обучающая выборка, содержащая не только пары аэро- и космофотоснимков и разметки к ним, но и обширную информацию о хронологии и этапах разметки, выполняемых оператором-дешифровщиком, включая масштабы изображений, выбранные для разметки заданного объекта, порядок обхода объектов и другие виды метаинформации. На разработанной выборке проведены вычислительные эксперименты для реализованных методов.

Научная и практическая значимость решения обозначенной проблемы состоит в создании методов анализа данных космической и аэрофотосъёмки, позволяющих автоматически и с высоким качеством решать задачи семантической

сегментации снимка, выявления изменений в наблюдаемой сцене и получения производной (векторной) информации, необходимой для оперативного обновления геоданных. Разработанные методы позволят, с одной стороны, более эффективно решать задачи обновления геопространственной информации, такие как выявление изменений в ландшафте и инфраструктуре, корректировка и пополнение базы геоданных, а с другой стороны, станут научно-методической основой для решения более сложных задач анализа геопространственной информации, таких как: создание иерархических моделей геопространственной инфраструктуры, интеллектуальное автоматическое оперативное создание карт, автоматическое интеллектуальное планирование сельско-хозяйственных работ, автоматическое интеллектуальное городское планирование, автоматический прогноз потенциальных природных и техногенных происшествий.

Методология и методы исследования. В работе использовались методы цифровой обработки изображений, анализа данных и машинного обучения. Для определения работоспособности реализованных методов и сравнения их с ведущими современными подходами использовались открытые выборки, являющиеся стандартом для тестирования алгоритмов сегментации и векторизации, содержащие реальные данные. Разработка программного кода производилась на языке программирования Python, с использованием фреймворка для глубокого обучения PyTorch, а так же библиотеки OpenCV, scikit-learn и Pillow.

Основные положения, выносимые на защиту:

1. Разработанный метод многоэтапной регуляризации обеспечивает повышение точности извлечения контуров зданий на изображениях дистанционного зондирования Земли по сравнению с современными ведущими подходами на 5-10% по метрикам средней точности и полноты и около 1% по коэффициенту Жаккара.

2. Разработанный метод векторизации аэрофотоснимков на основе обучения с подкреплением обрабатывает изображения быстрее (на 60%) и с меньшими использованиями памяти вычислительных средств (на 21%),

чем многоуровневые архитектуры, при незначительном снижении качества, что допустимо для задач векторизации в реальном времени.

3. Разработанная двухэтапная архитектура на основе нейронных сетей и теории графов демонстрирует высокий уровень эффективности при обработке аэрофотоснимков сложной структуры и обеспечивает увеличение точности семантической сегментации за счет комбинации методов глубокого обучения и графовых подходов. По результатам эксперимента прирост коэффициента Жаккара 5-10% по сравнению с современными автоматическими методами.

Достоверность полученных результатов подтверждается проведенными экспериментами для используемых методов, однородностью разметки аэро- и космофотоснимков, составляемой для одного снимка различными независимыми профессиональными дешифровщиками, а также формализованностью структуры векторной карты местности и процесса разметки, позволяющей создать единообразное математическое представление в виде графа сцены.

Апробация работы. Основные результаты по теме диссертации изложены в 6 печатных изданиях, индексируемых Web of Science и Scopus, 1 из которых изданы в журналах списка К1 и входят в собственный перечень МФТИ. Основные результаты работы докладывались на следующих научных конференциях:

1. ISPRS TCI Mid-term Symposium on Intelligent Sensing and Remote Sensing Application, Changsha, 2024;

2. ISPRS TC III Mid-term Symposium "Beyond the canopy: technologies and applications of remote sensing", Belém, 2024;

3. International Workshop on "Photogrammetric Data Analysis" - PDA24, Moscow, 2024;

4. International workshop on Photogrammetric techniques for environmental and infraStructure monitoring, Biometry and Biomedicine - PSBB25, Moscow, 2025.

Также результаты диссертационного исследования использованы при реализации проекта российского научного фонда №24-21-00269 "Дешифирование и

векторизация аэро- и космофотоснимков методами машинного обучения для обновления геопространственной информации", научно-исследовательских работ, таких как проект "САПФИР" для разработки программного обеспечения, использующего высокопроизводительные вычислительные средства, выполняемый в рамках субсидии Минпромторга России, и проект "СИНТЕЗ" для разработки технологии повышения реалистичности тепловизионных изображений, формируемых на основе высокодетализированных трехмерных моделей местности. В первом случае для семантической сегментации использовался разработанный метод на основе визуального трансформера и графовой нейронной сети, во втором случае - разработанные методы векторизации для улучшения качества построения трехмерных моделей местности.

Личный вклад. Все основные результаты получены автором лично. Также автор участвовал в постановке исследовательских задач, выборе методов их решения, анализе экспериментальных данных, интерпретации и обсуждении результатов, и формулировке выводов работы. Во всех выносимых на защиту результатах личный вклад диссертанта является основным и определяющим.

Объем и структура работы. Диссертация состоит из введения, 4 глав, заключения и библиографии. Полный объём диссертации составляет 98 страниц, включая 26 рисунков и 3 таблицы. Список литературы содержит 130 наименований.

Глава 1. Анализ существующих современных методов сегментации и векторизации аэро- и космофотоснимков

1.1 Семантическая сегментация спутниковых изображений

Методы семантической сегментации изображений разрабатываются научным сообществом со времени появления первых цифровых изображений, и первоначально развивались в трех направлениях решения проблемы сегментации: 1) анализ локального вида семантических классов [1—3], 2) анализ локальной согласованности признаков между областями изображения [4—6] и 3) использование априорной информации в алгоритмах обработки изображения для улучшения качества сегментации [7—9].

Локальное представление моделируется на различных уровнях, таких как пиксели [1], патчи (части изображения) [2], положение точки интереса [10] или суперпиксели [11], что позволяет ускорить обработку и повысить точность. Для этого используются локальные признаки, которые кластеризуются в визуальные слова или применяются для построения высокоуровневых представлений. Тематические модели, например, латентное распределение Дирихле [3], дополняют эти методы, учитывая пространственную согласованность и комбинируя их с вероятностными подходами.

Для обеспечения локальной и глобальной согласованности широко применяются модели случайных полей (марковского (МЕР) [4] и условного (СЕБ) [5]), где зависимости между метками определяются через минимизацию энергии, а априорная информация задается с помощью потенциалов, таких как модель Поттса [12]. В СИБ также используются потенциалы высшего порядка для согласованности на уровне областей, а методы вроде плотного СИБ [6] или иерархических моделей повышают точность и эффективность. В качестве аль-

тернативы, изображения разбиваются на суперпиксели, что упрощает обработку, но требует дополнительных решений для работы со сложными регионами.

Априорные знания, такие как глобальная классификация изображений [7], данные о форме объектов [8], ограничивающие рамки [9] и пользовательские теги [13], помогают улучшить локальную оценку и направлять процесс сегментации. Дополнительно используются априорные распределения классов и моделирование пространственных отношений между объектами для повышения точности и качества результатов.

Задача сегментации аэро- и космофотоснимков появилась почти одновременно с зарождением компьютерного зрения. Алгоритмы сегментации снимков преодолели долгий путь от аналитических методов до методов на основе марковских полей, прежде чем развитие вычислительных ресурсов позволило решать задачу сегментации с помощью глубоких свёрточных нейронных сетей. Одной из первых успешных работ в области сегментации изображений стала нейросеть SegNet [14], использующая архитектуру типа энкодер-декодер. Отличительной особенностью данной сети являлось то, что она состояла целиком из свёрточных слоёв (fully convolutional neural network). Это позволило повысить разрешение выходной сегментации и, как следствие, повысить качество формируемой сегментации.

На начальном этапе развития нейросетевых методов выделения специализированных методов сегментации для работы непосредственно с аэро- и космофотоснимками не проводилось. К числу универсальных нейросетей для сегментации, показывавших высокие результаты, как в части высокого качества формируемой разметки, так и в части производительности можно отнести нейро-сети UPerNet [15] и HRNetV2 [16]. Отличительной особенностью сети UPerNet [15] стала методика совместного обучения на несколько задач (сегментацию объектов, текстур, категорий). Подобное совместное обучение позволило повысить качество сегментации и повысить устойчивость работы сети на новых данных.

Авторы нейросети HRNetV2 [16] предложили архитектуру со сложными перекрёстными связязми, которые анализирует изображение сразу в нескольких

масштабах, что позволяет повысить эффективность обнаружения как крупных, так и мелких структур в кадре.

Значительной проблемой при обучении нейро сетей на задачу сегментации аэро- и космофотоснимков явлется дисбаланс площадей классов для мелких объектов (здания, дороги) и крупных объектов (леса, поля). Для решения данной задачи предложена модель представления семантических объектов в виде точек [17] (PointFlow). В сочетании с пирамидальным декодером изображения данный подход позволяет существенно повысить качество распознавания на выборках с большим дисбалансом классов. Альтернативный подход к устранению дисбаланса классов на основе фокусировки внимания связях между объектами и фоном предложен в работе [18]. Также пробемы контекстных связей между объектами и фоном рассмотрены в работе [19], где предложена сеть, используюшая многомасштабные перекрёстные связи между слоями. Для расширения обучающих выборок предложен подход, использующий веб-сервисы и веб-карты для обучения нейросетей на задачу сегментации аэрофотоснимков [20].

Многомасштабные конволюционные слои (atrous convolution) позволяют повысить качетсво сегментации изображений, в том числе для задачи семантической сегментации аэро- и космофотоснимков . В последние годы активно развиваются методы построения разметки аэро- и космофотоснимков в векторном виде [21; 22], которые в основном направлены на работу с двумя основными классами объектов: здания и дороги. Значительное внимание в последнее время уделяется созданию обширных обучающих выборок по тематике семантической сегментации аэро- и космофотоснимков [23; 24].

1.1.1 Свёрточные нейронные сети для семантической сегментации

В последние годы достижения в области глубокого обучения [25—27] существенно повлияли на развитие сетей глубокой семантической сегментации

(DSSN) для обработки изображений дистанционного зондирования (RS) [28]. Эти методы продемонстрировали превосходство над традиционными подходами, такими как случайные леса (ЯР), деревья решений ^Т) и машины опорных векторов ^УМ) [29]. Важным этапом в развитии DSSN стало внедрение полностью сверточных сетей (БС^ [30], которые позволили реализовать сквозную семантическую сегментацию за счет интеграции слоев деконволюции в сверточ-ные нейронные сети (С№Ы).

Одной из ключевых архитектур, получивших широкое распространение, является U-Net [31]. Ее уникальная структура, основанная на схеме кодера-декодера, использует пропускные соединения для эффективного захвата многомасштабной информации. Это позволяет объединять низкоуровневые детали с высокоуровневыми семантическими признаками, что значительно улучшает качество карт признаков. Аналогично, SegNet [14] применяет индекс максимального пула в кодере для выполнения нелинейной передискретизации в декодере, что также способствует повышению точности сегментации.

В последние годы наблюдается активное развитие методов семантической сегментации изображений RS на основе DSSN. Многочисленные исследования демонстрируют применение FCN для решения задач сегментации в дистанционном зондировании [32; 33]. Например, в работе [34] предложена новая DSSN, ориентированная на картографирование городского земельного покрова. В [35] представлен многомасштабный ансамблевый метод остаточного глубокого обучения, вдохновленный архитектурой для эффективного извлечения зданий. Кроме того, в [36] предложен модифицированный вариант SegNet, который включает многоядерные сверточные слои для улучшения захвата признаков на различных масштабах.

В работе [37] предложена сеть ранжирования двойного многомасштабного многообразия направленная на повышение производительности сег-

ментации. Авторы [38] использовали детализированную сеть сегментации для аннотирования объектов на аэрофотоснимках высокого разрешения. Для интеграции мультисенсорных данных, таких как цифровые модели поверхности (DSM),

в DSSN, изображения RGB комбинируются с мультимодальной информацией для улучшения контекстного анализа. В [39] предложен подход на основе сиамской сети для совместной обработки изображений и данных DSM, что позволяет интегрировать обнаружение границ и семантическую сегментацию в единую модель. В [40] представлен метод, включающий информацию о границах в DSSN для повышения точности сегментации. Кроме того, в [41] предложен подход, основанный на U-Net, для быстрой и точной классификации пикселей с последующей постобработкой, использующей экспертные знания.

Важным аспектом улучшения качества сегментации является повышение выразительности сети. Механизмы внимания, аналогичные зрительной системе человека, позволяют выделять наиболее значимые признаки, минимизируя влияние менее важных. В [42] предложен блок сжатия и возбуждения (squeeze-and-excitation), который уточняет ответы признаков по каналам за счет моделирования их взаимозависимостей. Пространственное внимание, в свою очередь, назначает различные веса пикселям в зависимости от их местоположения, что обеспечивает дополнительный пространственный контекст. В [43] представлена модель U-Net с модулем шлюза внимания, который модулирует важность признаков в различных пространственных областях. В [44] предложена семантическая сег-ментационная сеть SCAttNet, которая использует сверточный блочный модуль внимания (CBAM) [45], объединяющий пространственное и канальное внимание для улучшения сегментации изображений дистанционного зондирования.

Таким образом, современные исследования в области семантической сегментации изображений дистанционного зондирования демонстрируют значительный прогресс, связанный с развитием архитектур глубокого обучения, интеграцией мультимодальных данных и применением механизмов внимания для улучшения качества сегментации.

1.1.2 Графовая сверточная нейронная сеть

Особенности распределения наземных объектов и их взаимосвязей, характеризующихся сложными пространственными отношениями, приводят к формированию графовых структур. В таких графах узлы представляют отдельные объекты, а ребра отражают пространственные связи между ними, такие как соседство, пересечение или разделение. Эти структуры позволяют эффективно моделировать взаимозависимости между объектами, что особенно важно для задач анализа изображений дистанционного зондирования.

Несмотря на значительные успехи глубоких пространственно - структурированных сетей в обработке евклидовых данных, их применение к графовым данным в неевклидовых пространствах остается ограниченным. Графовые свер-точные сети (GCN) представляют собой специализированный подход глубокого обучения, адаптированный для работы с графовыми структурами. Они демонстрируют высокую эффективность в извлечении признаков из нерегулярных графов за счет процесса, известного как свертка графа. Основная идея свертки графа заключается в агрегировании информации от соседних узлов с использованием связей между ребрами, что позволяет создавать новые представления узлов. Это делает GCN мощным инструментом для моделирования сложных взаимозависимостей в графах.

Развитие методов анализа графов [46] привело к появлению ряда инновационных подходов. В работе [47] предложена модель многоуровневого распространения графа, использующая спектральную свертку для эффективной обработки графовых данных. В то же время, авторы [48] применили пространственную свертку графа, собирая информацию непосредственно от соседних узлов. В [49] представлена Deep-GCN, которая интегрирует концепции из CNN, такие как остаточные связи и расширенные свертки, для преодоления проблемы исчезновения градиентов, характерной для неглубоких архитектур GCN.

Особое внимание в исследованиях уделяется методам агрегации информации о соседних узлах. Графовая сеть внимания (GAT) [50] позволяет назначать веса каждому соседнему узлу на основе его значимости относительно центрального узла. В отличие от GAT, которая фокусируется на весах сходства, GCN акцентирует внимание на пространственных связях. В [51] предложена пиксельная модель GCN для семантической сегментации, которая использует точное местоположение каждого пикселя и инициализируется с помощью FCN. Однако, несмотря на сохранение локального положения пикселей, этот подход не всегда обеспечивает точное представление пространственных отношений между объектами.

Для задач классификации сцен на многомаркированных аэрофотоснимках в [52] предложен фреймворк CNN-GCN, который сочетает извлечение признаков объектов с учетом их топологических отношений. Хотя абстрактные признаки, генерируемые CNN, полезны для классификации сцен, семантическая сегментация на уровне пикселей требует более детализированного подхода для точной категоризации каждого пикселя. Таким образом, интеграция графовых нейронных сетей с традиционными методами глубокого обучения открывает новые возможности для повышения точности и эффективности анализа изображений дистанционного зондирования.

1.2 Методы извлечения контуров зданий со спутниковых изображений

В течение многих лет исследователи разрабатывают автоматизированный метод, способный заменить человека при создании векторных контуров отдельных зданий, которые играют важную роль в производстве ГИС, мониторинге окружающей среды, городском планировании, оценке плотности населения и энергоснабжении. Безусловно, это чрезвычайно сложная задача, не только из-за трудоемкости разработки такого высокоинтеллектуального алгоритма, но и из-за

проблем, связанных с неидеальными условиями съемки, разнообразной архитектурой зданий и сложностью фона.

Автоматическое обнаружение зданий по аэрофотоснимкам на протяжении десятилетий считается важным средством повышения эффективности генерации векторных карт [53—55]. В последние годы, при поддержке обширных данных для обучения и достаточной вычислительной мощности, методы глубокого обучения, такие как сверточные нейронные сети (CNN) [56] и полностью сверточные сети (FCN) [30], значительно повысили точность обнаружения зданий на изображениях дистанционного зондирования [57—59]. Однако автоматическое создание высококачественных векторных карт зданий по аэрофотоснимкам пока не стало реальностью для большинства сообществ. Отчасти это связано с тем, что подходы к обнаружению зданий на основе глубокого обучения по-прежнему сталкиваются с такими проблемами, как низкая точность распознавания крыш, закрытых деревьями или тенями [60], и относительно слабая способность к обобщению для определенных географических регионов [61]. Одна из современных задач при извлечении контуров зданий заключается в точном воссоздании полигональной границы при одновременном извлечении векторизованной маски строения в качестве выходных данных для непосредственного использования в различных приложениях.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Емельянов Антон Владимирович, 2025 год

Список литературы

1. He, X. Multiscale conditional random fields for image labeling [Текст] / X. He, R. Zemel, M. Carreira-Perpinan // Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004. CVPR 2004. Т. 2. - 2004. - С. II—II.

2. Verbeek, J. Region Classification with Markov Field Aspect Models [Текст] / J. Verbeek, B. Triggs //. — 06.2007.

3. Blei, D. Latent Dirichlet Allocation [Текст] / D. Blei, A. Ng, M. Jordan //. Т. 3. — 01.2001. —С. 601-608.

4. Multi-Class Segmentation with Relative Location Prior [Текст] / S. Gould [и др.] // International Journal of Computer Vision. — 2008. — Т. 80. — С. 300—316. — URL: https://api.semanticscholar.org/CorpusID:9779450 ; (Visited on: 25.08.2025).

5. TextonBoost: Joint Appearance, Shape and Context Modeling for Multi-class Object Recognition and Segmentation [Текст] / J. Shotton [и др.] // Computer Vision - ECCV 2006 / под ред. A. Leonardis, H. Bischof, A. Pinz. — Berlin, Heidelberg : Springer Berlin Heidelberg, 2006. — С. 1—15.

6. Krahenbuhl, P. Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials [Текст] / P. Krahenbuhl, V. Koltun. — 2012. — arXiv: 1210. 5644 [cs.CV]. — URL: https://arxiv.org/abs/1210.5644 ; (Visited on: 25.08.2025).

7. Csurka, G. An Efficient Approach to Semantic Segmentation [Текст] / G. Csurka // International Journal of Computer Vision. — 2011. — Нояб. — Т. 95.-С. 198-212.

8. Kumar, M. OBJ CUT [Текст] / M. Kumar, P. Ton, A. Zisserman // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 1. - 2005. - 18-25 vol. 1.

9. Image segmentation with a bounding box prior [Текст] / V. Lempitsky [и др.] // 2009 IEEE 12th International Conference on Computer Vision. — 2009. — С. 277-284.

10. Leibe, B. Combined object categorization and segmentation with an implicit shape model [Текст] / B. Leibe, A. Leonardis, B. Schiele // Proc. 8th Eur. Conf. Comput. Vis. (ECCV). — 2004. — Янв. — Т. 2.

11. Borenstein, E. Learning to Segment [Текст] / E. Borenstein, S. Ullman //. — 05.2004. — С. 315-328.

12. Boykov, Y. Interactive graph cuts for optimal boundary & region segmentation of objects in N-D images [Текст] / Y. Boykov, M.-P. Jolly // Proceedings Eighth IEEE International Conference on Computer Vision. ICCV 2001. Т. 1. — 2001. — 105-112 vol.1.

13. Li, L.-J. Towards total scene understanding: Classification, annotation and segmentation in an automatic framework [Текст] / L.-J. Li, R. Socher, L. FeiFei // 2009 IEEE Conference on Computer Vision and Pattern Recognition. — 2009. — С. 2036-2043.

14. Badrinarayanan, V. Segnet: A deep convolutional encoder-decoder architecture for image segmentation [Текст] / V. Badrinarayanan, A. Kendall, R. Cipolla // IEEE transactions on pattern analysis and machine intelligence. — 2017. — Т. 39, №12. — С. 2481-2495.

15. Unified Perceptual Parsing for Scene Understanding [Текст] / T. Xiao [и др.]. — 2018. — arXiv: 1807.10221 [cs.CV]. — URL: https://arxiv.org/abs/1807. 10221 ; (Visited on: 25.08.2025).

16. High-Resolution Representations for Labeling Pixels and Regions [Текст] / K. Sun [и др.]. — 2019. — arXiv: 1904.04514 [cs.CV]. —URL: https:// arxiv.org/abs/1904.04514 ; (Visited on: 25.08.2025).

17. PointFlow: Flowing Semantics Through Points for Aerial Image Segmentation [Текст] / X. Li [и др.]. — 2021. — arXiv: 2103.06564 [cs.CV]. — URL: https: //arxiv.org/abs/2103.06564 ; (Visited on: 25.08.2025).

18. Foreground-Aware Relation Network for Geospatial Object Segmentation in High Spatial Resolution Remote Sensing Imagery [Текст] / Z. Zheng [и др.]. — 2020. — arXiv: 2011.09766 [cs.CV]. — URL: https://arxiv.org/abs/2011. 09766 ; (Visited on: 25.08.2025).

19. Context Contrasted Feature and Gated Multi-scale Aggregation for Scene Segmentation [Текст] / H. Ding [и др.] // 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2018. — С. 2393—2402.

20. Learning Aerial Image Segmentation From Online Maps [Текст] / P. Kaiser [и др.] // IEEE Transactions on Geoscience and Remote Sensing. — 2017. — Нояб. — Т. 55, № 11. — С. 6054—6068. — URL: http://dx.doi.org/10.1109/ TGRS.2017.2719738.

21. DenseASPP for Semantic Segmentation in Street Scenes [Текст] / M. Yang [и др.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2018.

22. Sahu, M. VECTOR MAP GENERATION FROM AERIAL IMAGERY USING DEEP LEARNING [Текст] / M. Sahu, A. Ohri // ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences. — 2019. — Т. IV—2/W5. — С. 157—162. — URL: https: //isprs - annals. copernicus. org/ articles/IV-2-W5/157/2019/.

23. DOTA: A Large-Scale Dataset for Object Detection in Aerial Images [Текст] / G.-S. Xia [и др.] //2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2018. — С. 3974—3983.

24. iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images [Текст] / S. W. Zamir [и др.]. — 2019. — arXiv: 1905. 12886 [cs.CV].— URL: https://arxiv.org/abs/1905.12886 ; (Visited on: 25.08.2025).

25. LeCun, Y. Deep learning [Текст] / Y. LeCun, Y. Bengio, G. Hinton // nature. — 2015. — Т. 521, № 7553. — С. 436—444.

26. Li, Y. Error-tolerant deep learning for remote sensing image scene classification [Текст] / Y. Li, Y. Zhang, Z. Zhu // IEEE transactions on cybernetics. — 2020. — Т. 51, № 4. — С. 1756—1768.

27. Emelyanov, A. Extracting building outlines based on convolutional neural networks using the property of linear connectivity [Text] / A. Emelyanov, V. A. Knyaz, V. V. Kniaz // The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. — 2024. — Vol. XLVIII-1—2024. — P. 147—152. — URL: https://isprs-archives.copernicus.org/articles/ XLVIII-1-2024/147/2024/.

28. Basaeed, E. Supervised remote sensing image segmentation using boosted convolutional neural networks [Текст] / E. Basaeed, H. Bhaskar, M. Al-Mualla // Knowledge-Based Systems. — 2016. — Т. 99. — С. 19—27.

29. Advances in hyperspectral image classification: Earth monitoring with statistical learning methods [Текст] / G. Camps-Valls [и др.] // IEEE signal processing magazine. — 2013. — Т. 31, № 1. — С. 45—54.

30. Long, J. Fully convolutional networks for semantic segmentation [Текст] / J. Long, E. Shelhamer, T. Darrell // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2015. — С. 3431—3440.

31. Ronneberger, O. U-net: Convolutional networks for biomedical image segmentation [Текст] / O. Ronneberger, P. Fischer, T. Brox // Medical image computing and computer-assisted intervention-MICCAI 2015: 18th international conference, Munich, Germany, October 5-9, 2015, proceedings, part III 18. — Springer. 2015. — С. 234—241.

32. Semantic segmentation of slums in satellite images using transfer learning on fully convolutional neural networks [Текст] / M. Wurm [и др.] // ISPRS journal of photogrammetry and remote sensing. — 2019. — Т. 150. — С. 59—69.

33. Sherrah, J. Fully convolutional networks for dense semantic labelling of high-resolution aerial imagery [Текст] / J. Sherrah // arXiv preprint arXiv:1606.02585. — 2016.

34. Kampffmeyer, M. Semantic segmentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks [Текст] / M. Kampffmeyer, A.-B. Salberg, R. Jenssen // Proceedings of the IEEE conference on computer vision and pattern recognition workshops. — 2016. —С. 1-9.

35. Wang, C. Multi-scale residual deep network for semantic segmentation of buildings with regularizer of shape representation [Текст] / C. Wang, L. Li // Remote Sensing. — 2020. — Т. 12, № 18. — С. 2932.

36. Audebert, ^.Semantic segmentation of earth observation data using multimodal and multi-scale deep networks [Текст] / N. Audebert, B. Le Saux, S. Lefevre // Asian conference on computer vision. — Springer. 2016. — С. 180—196.

37. Learning dual multi-scale manifold ranking for semantic segmentation of highresolution images [Текст] / M. Zhang [и др.] // Remote Sensing. — 2017. — Т. 9, № 5. — С. 500.

38. Semantic labeling of high resolution aerial imagery and LiDAR data with fine segmentation network [Текст] / X. Pan [и др.] // Remote sensing. — 2018. — Т. 10, № 5. — С. 743.

39. Semantic segmentation of aerial images with an ensemble of CNSS [Текст] / D. Marmanis [и др.] // ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2016. — 2016. — Т. 3. — С. 473—480.

40. Remote sensing image semantic segmentation based on edge information guidance [Текст] / C. He [и др.] // Remote Sensing. — 2020. — Т. 12, № 9. — С. 1501.

41. Semantic referee: A neural-symbolic framework for enhancing geospatial semantic segmentation [Текст] / M. Alirezaie [и др.] // Semantic Web. — 2019. - Т. 10, № 5. - С. 863-880.

42. Hu, J.Squeeze-and-excitation networks [Текст] / J. Hu, L. Shen, G. Sun // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2018. — С. 7132—7141.

43. Oktay, O. Attention u-net: Learning where to look for the Pancreas [Текст] / O. Oktay // arXiv preprint arXiv:1804.03999. — 2018.

44. SCAttNet: Semantic segmentation network with spatial and channel attention mechanism for high-resolution remote sensing images [Текст] / H. Li [и др.] // IEEE Geoscience and Remote Sensing Letters. — 2020. — Т. 18, № 5. — С. 905-909.

45. Cbam: Convolutional block attention module [Текст] / S. Woo [и др.] // Proceedings of the European conference on computer vision (ECCV). — 2018. — С. 3-19.

46. Gori, M. A new model for learning in graph domains [Текст] / M. Gori, G. Monfardini, F. Scarselli // Proceedings. 2005 IEEE international joint conference on neural networks, 2005. Т. 2. — IEEE. 2005. — С. 729—734.

47. Welling, M. Semi-supervised classification with graph convolutional networks [Текст] / M. Welling, T. N. Kipf // J. International Conference on Learning Representations (ICLR 2017). — 2016.

48. Niepert, M. Learning convolutional neural networks for graphs [Текст] / M. Niepert, M. Ahmed, K. Kutzkov // International conference on machine learning. — PMLR. 2016. — С. 2014—2023.

49. Deepgcns: Can gcns go as deep as cnns? [Текст] / G. Li [и др.] // Proceedings of the IEEE/CVF international conference on computer vision. — 2019. — С. 9267-9276.

50. Graph attention networks [Текст] / P. Velickovic [и др.] // arXiv preprint arXiv:1710.10903. — 2017.

51. Graph-FCN for image semantic segmentation [Текст] / Y. Lu [и др.] // International symposium on neural networks. — Springer. 2019. — С. 97—105.

52. A CNN-GCN framework for multi-label aerial image scene classification [Текст] / Y. Li [и др.] // IGARSS 2020-2020 IEEE International Geoscience and Remote Sensing Symposium. — IEEE. 2020. — С. 1353—1356.

53. Building Detection and Reconstruction from Mid- and High-Resolution Aerial Imagery [Текст] / N. Paparoditis [и др.] // Computer Vision and Image Understanding. — 1998. — Т. 72, № 2. — С. 122—142.

54. Persson, M. Automatic building detection from aerial images for mobile robot mapping [Текст] / M. Persson, M. Sandvall, T. Duckett // 2005 International Symposium on Computational Intelligence in Robotics and Automation. — 2005. - С. 273-278.

55. Building Extraction at Scale Using Convolutional Neural Network: Mapping of the United States [Текст] / H. L. Yang [и др.] // IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing. — 2018. — Т. 11, № 8. — С. 2600-2614.

56. Backpropagation Applied to Handwritten Zip Code Recognition [Текст] / Y. LeCun [и др.] // Neural Computation. — 1989. — Дек. — Т. 1, № 4. — С. 541—551. — eprint: https://direct.mit.edu/neco/article-pdf/1/4/541/811941/ neco.1989.1.4.541.pdf. — URL: https://doi.org/10.1162/neco.1989.1.4.541.

57. Li, Z. Topological Map Extraction From Overhead Images [Текст] / Z. Li, J. D. Wegner, A. Lucchi // Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). — 10.2019.

58. An end-to-end shape modeling framework for vectorized building outline generation from aerial images [Текст] / Q. Chen [и др.] // ISPRS Journal of Photogrammetry and Remote Sensing. — 2020. — Т. 170. — С. 114—126.

59. AN END-TO-END DEEP LEARNING WORKFLOW FOR BUILDING SEGMENTATION, BOUNDARY REGULARIZATION AND VECTORIZATION OF BUILDING FOOTPRINTS [Текст] / S. Sanca [и др.] // The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. — 2023. — Т. XLVIII-4/W7—2023. — С. 169—175. — URL: https: //isprs-archives.copernicus.org/articles/XLVIII-4-W7-2023/169/2023/.

60. TEMPORARY REMOVAL: Aerial imagery for roof segmentation: A large-scale dataset towards automatic mapping of buildings [Текст] / Q. Chen [и др.] // ISPRS Journal of Photogrammetry and Remote Sensing. — 2019. — Т. 147. — С. 42-55.

61. Can semantic labeling methods generalize to any city? the inria aerial image labeling benchmark [Текст] / E. Maggiori [и др.] // 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). — 2017. —С. 3226-3229.

62. Wei, S. Toward automatic building footprint delineation from aerial images using CNN and regularization [Текст] / S. Wei, S. Ji, M. Lu // IEEE Transactions on Geoscience and Remote Sensing. — 2019. — Т. 58, № 3. — С. 2178—2189.

63. Zhao, W Building Instance Segmentation and Boundary Regularization from High-Resolution Remote Sensing Images [Текст] / W. Zhao, C. Persello, A. Stein // IGARSS 2020 - 2020 IEEE International Geoscience and Remote Sensing Symposium. — 2020. — С. 3916—3919.

64. Building Extraction From Satellite Images Using Mask R-CNN With Building Boundary Regularization [Текст] / K. Zhao [и др.] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops. — 06.2018.

65. 3D Reconstruction of a Complex Grid Structure Combining UAS Images and Deep Learning [Текст] / V. A. Knyaz [и др.] // Remote Sensing. — 2020. — Т. 12, № 19. — URL: https://www.mdpi.com/2072-4292/12/19/3128.

66. Huang, Ж OEC-RNN: Object-Oriented Delineation of Rooftops With Edges and Corners Using the Recurrent Neural Network From the Aerial Images [Текст] / W. Huang, H. Tang, P. Xu // IEEE Transactions on Geoscience and Remote Sensing. — 2021. — Май. — Т. PP. — С. 1—12.

67. DANCE: A Deep Attentive Contour Model for Efficient Instance Segmentation [Текст] / Z. Liu [и др.] // Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). - 01.2021. - С. 345-354.

68. Kass, M. Snakes: Active contour models [Текст] / M. Kass, A. Witkin, D. Terzopoulos // International journal of computer vision. — 1988. — Т. 1, № 4. — С. 321-331.

69. Chan, T. Active contours without edges [Текст] / T. Chan, L. Vese // IEEE Transactions on Image Processing. — 2001. — Т. 10, № 2. — С. 266—277.

70. Learning Deep Structured Active Contours End-to-End [Текст] / D. Marcos [и др.] // 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2018. — С. 8877—8885. — URL: https://api.semanticscholar. org/CorpusID:3939983 ; (Visited on: 25.08.2025).

71. Hatamizadeh, A. End-to-End Deep Convolutional Active Contours for Image Segmentation [Текст] / A. Hatamizadeh, D. Sengupta, D. Terzopoulos // ArXiv. — 2019. — Т. abs/1909.13359. — URL: https://api.semanticscholar.org/ CorpusID:203593984 ; (Visited on: 25.08.2025).

72. PolarMask: Single Shot Instance Segmentation With Polar Representation [Текст] / E. Xie [и др.] // 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2020. — С. 12190—12199.

73. PolarMask++: Enhanced Polar Representation for Single-Shot Instance Segmentation and Beyond [Текст] / E. Xie [и др.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2021. — Т. 44. — С. 5385—5400. — URL: https://api.semanticscholar.org/CorpusID:233739844 ; (Visited on: 25.08.2025).

74. Location-Sensitive Visual Recognition with Cross-IOU Loss [Текст] / K. Duan [и др.] // ArXiv. - 2021. - Т. abs/2104.04899. - URL: https : / / api . semanticscholar.org/CorpusID:233210422 ; (Visited on: 25.08.2025).

75. Liu, Z. Building Outline Delineation From VHR Remote Sensing Images Using the Convolutional Recurrent Neural Network Embedded With Line Segment Information [Текст] / Z. Liu, H. Tang, W. Huang // IEEE Transactions on Geoscience and Remote Sensing. — 2022. — Т. 60. — С. 1—13.

76. A Review of Recurrent Neural Networks: LSTM Cells and Network Architectures [Текст] / Y. Yu [и др.] // Neural Computation. — 2019. — Июль. — Т. 31, № 7. — С. 1235—1270. — eprint: https://direct.mit.edu/ neco/article-pdf/31/7/1235/ 1053200/neco\_a\_01199.pdf. - URL: https: //doi.org/10.1162/neco%5C_a%5C_01199.

77. PolyWorld: Polygonal Building Extraction With Graph Neural Networks in Satellite Images [Текст] / S. Zorzi [и др.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 06.2022. — С. 1848-1857.

78. Processing of Extremely High-Resolution LiDAR and RGB Data: Outcome of the 2015 IEEE GRSS Data Fusion Contest-Part A: 2-D Contest [Текст] / M. Campos-Taberner [и др.] // IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing. — 2016. — Т. 9, № 12. — С. 5547—5559.

79. THE ISPRS BENCHMARK ON URBAN OBJECT CLASSIFICATION AND 3D BUILDING RECONSTRUCTION [Текст] / F. Rottensteiner [и др.] // ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences. — 2012. — Т. I—3. — С. 293—298. — URL: https://isprs-annals. copernicus.org/articles/I-3/293/2012/.

80. Ji, S. Fully Convolutional Networks for Multisource Building Extraction From an Open Aerial and Satellite Imagery Data Set [Текст] / S. Ji, S. Wei, M. Lu //

IEEE Transactions on Geoscience and Remote Sensing. — 2019. — Т. 57, № 1. —

C. 574-586.

81. Asymmetric Siamese Networks for Semantic Change Detection in Aerial Images [Текст] / K. Yang [и др.] // IEEE Transactions on Geoscience and Remote Sensing. - 2022. - Т. 60. - С. 1-18.

82. Hi-UCD: A Large-scale Dataset for Urban Semantic Change Detection in Remote Sensing Imagery [Текст] / S. Tian [и др.]. — 2020. — arXiv: 2011.03247

[cs.CV].

83. Deep Learning for Understanding Satellite Imagery: An Experimental Survey [Текст] / S. P. Mohanty [и др.] // Frontiers in Artificial Intelligence. — 2020. — Т. 3.

84. SpaceNet MVOI: A Multi-View Overhead Imagery Dataset [Текст] / N. Weir [и др.] // Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV).-10.2019.

85. Human-level control through deep reinforcement learning [Текст] / V. Mnih [и др.] // nature. — 2015. — Т. 518, № 7540. — С. 529—533.

86. Sutton, R. S. Reinforcement Learning: An Introduction [Текст] / R. S. Sutton, A. G. Barto. — Second. — The MIT Press, 2018. — URL: http://incompleteideas. net/book/the-book-2nd.html.

87. Playing Atari with Deep Reinforcement Learning [Текст] / V. Mnih [и др.]. — 2013. — arXiv: 1312.5602 [cs.LG]. — URL: https://arxiv.org/abs/1312.5602.

88. Mastering the game of Go with deep neural networks and tree search [Текст] /

D. Silver [и др.] // nature. — 2016. — Т. 529, № 7587. — С. 484—489.

89. Proximal Policy Optimization Algorithms [Текст] / J. Schulman [и др.]. — 2017. — arXiv: 1707.06347 [cs.LG]. — URL: https://arxiv.org/abs/1707. 06347.

90. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor [Текст] / T. Haarnoja [и др.]. — 2018. — arXiv: 1801. 01290 [cs.LG]. — URL: https://arxiv.org/abs/1801.01290.

91. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, andFully ConnectedCRFs [Текст] /L.-C. Chen [и др.]. — 2017. — arXiv: 1606.00915 [cs.CV]. — URL: https://arxiv.org/abs/1606.00915.

92. Tao, T. Evaluating Vision Transformer Methods for Deep Reinforcement Learning from Pixels [Текст] / T. Tao, D. Reda, M. van de Panne. — 2022. — arXiv: 2204.04905 [cs.LG]. — URL: https://arxiv.org/abs/2204.04905.

93. Graph Neural Network Reinforcement Learning for Autonomous Mobility-on-Demand Systems [Текст] / D. Gammelli [и др.]. — 2021. — arXiv: 2104.11434 [eess.SY]. — URL: https://arxiv.org/abs/2104.11434.

94. Few-Shot Classification of Aerial Scene Images via Meta-Learning [Текст] / P. Zhang [и др.] // Remote Sensing. — 2021. — Т. 13, № 1. — URL: https : //www.mdpi.com/2072-4292/13/1/108.

95. Self-supervised Learning in Remote Sensing: A Review [Текст] / Y. Wang [идр.]. — 2022. — arXiv: 2206.13188 [cs.CV]. — URL: https://arxiv.org/abs/ 2206.13188.

96. Ha, D. Recurrent world models facilitate policy evolution [Текст] / D. Ha, J. Schmidhuber // Proceedings of the 32nd International Conference on Neural Information Processing Systems. — Montréal, Canada : Curran Associates Inc., 2018. - С. 2455-2467. - (NIPS'18).

97. f -GAIL: Learning f -Divergence for Generative Adversarial Imitation Learning [Текст] / X. Zhang [и др.]. — 2020. — arXiv: 2010.01207 [cs.LG]. — URL: https://arxiv.org/abs/2010.01207 ; (Visited on: 25.08.2025).

98. Visual Adversarial Imitation Learning using Variational Models [Текст] / R. Rafailov [и др.]. — 2022. — arXiv: 2107.08829 [cs.LG]. — URL: https: //arxiv.org/abs/2107.08829 ; (Visited on: 25.08.2025).

99. Furuta, R. PixelRL: Fully Convolutional Network with Reinforcement Learning for Image Processing [Текст] / R. Furuta, N. Inoue, T. Yamasaki. — 2019. — arXiv: 1912.07190 [cs.CV]. — URL: https://arxiv.org/abs/1912.07190 ; (Visited on: 25.08.2025).

100. Hierarchical Object Detection with Deep Reinforcement Learning [Текст] / M. Bellver [и др.]. — 2016. — arXiv: 1611.03718 [cs.CV].—URL: https: //arxiv.org/abs/1611.03718 ; (Visited on: 25.08.2025).

101. Reinforced active learning for image segmentation [Текст] / A. Casanova [идр.]. — 2020. — arXiv: 2002.06583 [cs.CV]. — URL: https://arxiv.org/abs/ 2002.06583 ; (Visited on: 25.08.2025).

102. Canny, J. A Computational Approach To Edge Detection [Текст] / J. Canny // Pattern Analysis and Machine Intelligence, IEEE Transactions on. — 1986. — Дек. — Т. PAMI—8. — С. 679—698.

103. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation [Текст] / L.-C. Chen [и др.]. — 2018. — arXiv: 1802 . 02611 [cs.CV]. — URL: https://arxiv.org/abs/1802.02611.

104. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [Текст] / A. Dosovitskiy [и др.]. — 2021. — arXiv: 2010.11929 [cs.CV].— URL: https://arxiv.org/abs/2010.11929.

105. Weakly Supervised Semantic Segmentation in Aerial Imagery via Cross-Image Semantic Mining [Текст] / R. Zhou [и др.] // Remote Sensing. — 2023. — Т. 15, № 4. — URL: https://www.mdpi.com/2072-4292/15/4/986.

106. Li, Z. Topological Map Extraction from Overhead Images [Текст] / Z. Li, J. D. Wegner, A. Lucchi. — 2019. — arXiv: 1812.01497 [cs.CV]. — URL: https://arxiv.org/abs/1812.01497.

107. Deep Reinforcement Learning in Computer Vision: A Comprehensive Survey [Текст] / N. Le [и др.]. — 2021. — arXiv: 2108. 11510 [cs.CV]. — URL: https://arxiv.org/abs/2108.11510.

108. Mask R-CNN [Текст] / K. He [и др.]. — 2018. — arXiv: 1703.06870 [cs.CV].

109. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [Текст] / S. Ren [и др.]. — 2016. — arXiv: 1506.01497 [cs.CV].

110. U-Net Transformer: Self and Cross Attention for Medical Image Segmentation [Текст] / O. Petit [и др.] // ArXiv. — 2021. — Т. abs/2103.06104. — URL: https: //api.semanticscholar.org/CorpusID:232170496 ; (Visited on: 25.08.2025).

111. Deep Residual Learning for Image Recognition [Текст] / K. He [и др.]. — 2015. — arXiv: 1512.03385 [cs.CV]. — URL: https://arxiv.org/abs/1512. 03385.

112. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation [Текст] / K. Cho [и др.]. — 2014. — arXiv: 1406.1078 [cs.CL]. — URL: https://arxiv.org/abs/1406.1078.

113. Dueling Network Architectures for Deep Reinforcement Learning [Текст] / Z. Wang [и др.]. — 2016. — arXiv: 1511. 06581 [cs.LG]. — URL: https: //arxiv.org/abs/1511.06581.

114. Semi-supervised learning of visual features by non-parametrically predicting view assignments with support samples [Текст] / M. Assran [и др.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2021. —С. 8443-8452.

115. Zagoruyko, S. Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer [Текст] / S. Zagoruyko, N. Komodakis. — 2017. — arXiv: 1612. 03928 [cs.CV].— URL: https://arxiv.org/abs/1612.03928.

116. Emerging properties in self-supervised vision transformers [Текст] / M. Caron [и др.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. - 2021. - С. 9650-9660.

117. Graph neural networks: A review of methods and applications [Текст] / J. Zhou [и др.] // AI Open. — 2020. — Т. 1. — С. 57—81. — URL: https: / /www. sciencedirect.com/science/article/pii/S2666651021000012.

118. LEVIR-CD. Source: https://justchenhao.github.io/LEVIR/ [Текст] / LEVIR-CD.

119. OpenStreetMap. Source: https://www.openstreetmap.org [Текст] / OpenStreetMap.

120. An image is worth 16x16 words: Transformers for image recognition at scale [Текст] / A. Dosovitskiy [и др.] // arXiv preprint arXiv:2010.11929. — 2020.

121. Unsupervised learning of visual features by contrasting cluster assignments [Текст] / M. Caron [и др.] // NeurIPS. — 2020.

122. Bootstrap your own latent: A new approach to self-supervised learning [Текст] / J.-B. Grill [и др.] // NeurIPS. - 2020.

123. Momentum contrast for unsupervised visual representation learning [Текст] / K. He [и др.] // CVPR. — 2020.

124. Hinton, G. Distilling the knowledge in a neural network [Текст] / G. Hinton, O. Vinyals, J. Dean // preprint arXiv:1503.02531. — 2015.

125. Wu, Z. An Optimal Graph Theoretic Approach to Data Clustering: Theory and Its Application to Image Segmentation [Текст] / Z. Wu, R. M. Leahy // IEEE Trans. Pattern Anal. Mach. Intell. — 1993. — Т. 15. — С. 1101—1113. — URL: https://api.semanticscholar.org/CorpusID:2595046.

126. Bianchi, F. M. Spectral clustering with graph neural networks for graph pooling [Текст] / F. M. Bianchi, D. Grattarola, C. Alippi // International Conference on Machine Learning. — PMLR. 2020. — С. 874—883.

127. Benny, Y. Onegan: Simultaneous unsupervised learning of conditional image generation, foreground segmentation, and fine-grained clustering [Текст] / Y. Benny, L. Wolf // European Conference on Computer Vision. — Springer. 2020. — С. 514-530.

128. Voynov, A. Object segmentation without labels with large-scale generative models [Текст] / A. Voynov, S. Morozov, A. Babenko // International Conference on Machine Learning. — PMLR. 2021. — С. 10596—10606.

129. Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised Semantic Segmentation and Localization [Текст] / L. Melas-Kyriazi [и др.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — С. 8364—8375.

130. Self-supervised transformers for unsupervised object discovery using normalized cut [Текст] / Y. Wang [и др.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — С. 14543-14553.

Список рисунков

2.1 Схема предложенного алгоритма......................31

2.2 Структура Mask R-CNN...........................32

2.3 Схематическое определение линейно связного множества........34

2.4 Использование свойства линейной связности для удаления ненужных точек с изображений. На первом изображении обнаружен объект класса «здание». На втором — объекты класса «здание» сегментируются в ограничивающем прямоугольнике. На третьем —

пиксели, не принадлежащие основному объекту, но ошибочно сегментированные, выделяются красным цветом и удаляются. На последнем изображении представлен конечный результат сегментации и регуляризации........................35

2.5 Схема предложенного алгоритма......................35

2.6 Структура сверточной нейронной сети, используемой для бинарной сегментации.................................. 36

2.7 Матрицы окрестности для граничных точек. Матрицы (а-с, : показывают основные типы вершин выпуклых углов зданий, а е)

— типы границ................................39

2.8 Результат процесса регуляризации. Слева: входное изображение. В центре: сегментированное изображение. Справа: сегментированное изображение после процесса регуляризации................39

2.9 Алгоритм регуляризации и выбора особо значимых точек........40

2.10 Схема предлагаемого алгоритма, объединяющая регуляризацию матрицы соседства, оптимизацию спектральной границы и адаптивное уточнение контура........................41

2.11 Результат процесса регуляризации. Слева: исходное изображение. В центре: сегментированное изображение. Справа: сегментированное изображение после процесса регуляризации................45

2.12 Некоторые изображения из набора данных CrowdAI Mapping Challenge. 47

2.13 Результаты эксперимента для метода с регуляризацей на основе свойства линейной связности........................48

2.14 Результаты эксперимента для метода с регуляризацией на основе матрицы окрестности.............................49

2.15 Результаты эксперимента для метода с многоэтапной регуляризацией. . 50

3.1 Структура предложенного алгоритма....................52

3.2 Некоторые изображения из набора данных CrowdAI Mapping Challenge. 57

3.3 Результаты эксперимента......................................................59

4.1 Примеры изображений из набора данных Segmentation and

Visualization Aerial Images. Изображения в столбцах 1 и 3 были получены со спутников Bing и Google в 2018 и 2024 годах соответственно; столбцы 2 и 4 показывают изменения (разрушенные объекты показаны красным, а новые появившиеся объекты показаны

синим) ....................................64

4.2 Фрагмент файла OSM............................65

4.3 Примеры изображений из выборки SVAI. Верхний и нижний ряды — это изображения OSM за 2018 и 2024 годы соответственно, а средний

ряд — это изменения в дорожной карте за этот период времени .... 66

4.4 После извлечения глубоких признаков из предварительно обученной модели МТ создается матрица подобия, рассматривая сходства между признаками на уровне патча. При использовании этой матрицы и глубоких признаков в качестве признаков узлов, строится граф ..... 68

4.5 Карты внимания из нескольких головок для запроса токена [CLS] ....................................69

4.6 Случай, когда минимальный разрез дает плохое разбиение.......70

4.7 Предлагаемая двухэтапная кластеризация. В начале изображение разделяется на два отдельных класса, а затем применяется кластеризация конкретно к фону ...................... 72

4.8 Семантическая сегментация. Верхний ряд: исходное изображение; средний ряд: истинные данные; нижний ряд: результат работы предлагаемого алгоритма .......................... 74

Список таблиц

1 Результаты на тестовом наборе данных CrowdAI для всех экспериментов по извлечению и полигонизации зданий..........48

2 Результаты на тестовом наборе данных CrowdAI для всех экспериментов по векторизации....................... 58

3 Значения метрики т1ои на разработанном наборе данных для различных алгоритмов............................73

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.