Разработка и исследование алгоритмов построения мультимодальных карт по последовательности неразмеченных изображений RGB-D камер интеллектуальных агентов тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Линок Сергей Александрович
- Специальность ВАК РФ00.00.00
- Количество страниц 143
Оглавление диссертации кандидат наук Линок Сергей Александрович
Введение
Глава 1. Обзор и анализ методов построения мультимодальных карт
1.1 Теоретические основы задачи визуального картирования
1.2 Существующие методы картирования окружающего пространства
1.2.1 Классические геометрические методы
1.2.2 Визуальная локализация и картографирование
1.2.3 Методы на основе Neural Radiance Fields
1.2.4 Методы на основе Gaussian Splatting
1.2.5 Нейросетевые методы прямой регрессии структуры сцены
из изображений
1.3 RGB-D камера как источник мультимодальных данных
1.3.1 Семантическое обогащение RGB-изображений
1.3.2 Визуально-языковые эмбединги
1.4 Современные подходы к мультимодальному картированию
1.5 Применение и оценивание мультимодальных карт
1.6 Общая постановка задачи
1.6.1 Научная идея
1.6.2 Общая задача
1.6.3 Ограничения и допущения
1.6.4 Технические требования
1.7 Выводы
Глава 2. Исследование метода совместного обучения нейросетей по неразмеченной последовательности RGB изображений для
предсказания глубины и изменения положения центра камеры
2.1 Описание метода
2.2 Экспериментальные исследования
2.2.1 Наборы данных
2.2.2 Исследование компонентов
2.2.3 Решение целевых задач
2.3 Выводы
Глава 3. Разработка метода построения статической
мультимодальной карты помещения по последовательности неразмеченных изображений RGB-D камеры
3.1 Описание метода
3.1.1 Модуль отслеживания объектов на основе модели DINO
3.1.2 Алгоритм ассоциации 3D объектов
3.1.3 Модуль проекции 3D объектов в 2D
3.2 Экспериментальные исследования
3.2.1 Исследование DINO-дескрипторов для ассоциации объектов
3.2.2 Исследование методов создания описания объектов
3.2.3 Оценка решения задачи трехмерной сегментации
3.2.4 Робототехнический эксперимент
3.3 Выводы
Глава 4. Разработка метода построения иерархической статической мультимодальной карты многоуровневого помещения по последовательности неразмеченных изображений RGB-D
камеры
4.1 Описание метода
4.1.1 Построение иерархического графа сцены
4.1.2 Алгоритм рассуждения по иерархическому графу сцены
4.2 Экспериментальные исследования
4.2.1 Исследование задачи поиска объектов с открытым словарем
4.3 Выводы
Глава 5. Разработка метода учета динамических изменений в
окружающей среде для отражения в мультимодальной карте и рассуждения на основе истории наблюдений по последовательности неразмеченных изображений RGB-D
камеры
5.1 Описание метода
5.1.1 Кодирование единичного графа сцены
5.1.2 Кодирование последовательности графов сцены
5.1.3 Обучение графового энкодера сцены
5.2 Экспериментальные исследования
5.2.1 Наборы данных
5.2.2 Метрики оценки
5.2.3 Детали реализации
5.2.4 Исследование влияния компонентов на наборе данных STAR100
5.2.5 Количественное сравнение на данных STAR
5.2.6 Количественное сравнение на данных AGQA2
5.2.7 Методология применения DyGEnc к видео
5.3 Выводы
Заключение
Словарь терминов
Список литературы
Список рисунков
Список таблиц
Приложение А. Государственная регистрация программы для ЭВМ "Программа для кодирования последовательности текстовых графов сцены и рассуждения по ней с использованием большой языковой модели"
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Разработка и исследование методов и алгоритмов автоматического обнаружения и отслеживания динамических объектов с восстановлением их 3D-моделей2024 год, кандидат наук Мурхиж Юшаа
Разработка и исследование методов и алгоритмов распознавания места на основе последовательности мультимодальных данных2025 год, кандидат наук Мелехин Александр Алексеевич
Методология решения проблемы одновременной навигации и построения карты на основе комбинирования визуальных и семантических характеристик окружающей среды2020 год, доктор наук Вохминцев Александр Владиславович
Семантический разбор и обработка трехмерных сцен2021 год, кандидат наук Рухович Данила Дмитриевич
Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками2023 год, кандидат наук Староверов Алексей Витальевич
Введение диссертации (часть автореферата) на тему «Разработка и исследование алгоритмов построения мультимодальных карт по последовательности неразмеченных изображений RGB-D камер интеллектуальных агентов»
Введение
Актуальность выбранной тематики диссертации обусловлена стремительным развитием и всё более широким внедрением автономных интеллектуальных агентов (роботов, беспилотных транспортных средств, дронов и других систем) в самые разнообразные области человеческой деятельности: от логистики и промышленного производства до сферы обслуживания, медицины, сельского хозяйства и безопасности. Сегодня высокоуровневые алгоритмы управления и принятия решений играют ключевую роль в создании таких агентов, способных функционировать в динамически меняющейся и, зачастую, непредсказуемой среде. При этом точное и быстро обновляемое представление окружающего мира оказывается фундаментальным требованием для обеспечения безопасности, эффективности и гибкости действий. В связи с этим исследования на стыке компьютерного зрения, трёхмерной реконструкции, нейронных сетей, робототехники и искусственного интеллекта приобретают особую актуальность и практическую значимость.
Современные автономные агенты всё чаще сталкиваются с необходимостью функционировать в сложных, непредсказуемых условиях городской инфраструктуры, промышленных объектов, природно-пейзажных локаций и других пространств, где наличие статических и динамических объектов разной природы создаёт угрозу как для самих роботов, так и для окружающих людей и вещей. Традиционные методы управления, основанные на заранее составленных картах, жестко заданных правилах или классических алгоритмах компьютерного зрения с конечным список распознаваемых объектов, уже не способны обеспечить достаточный уровень надёжности и адаптивности выполнения целевых инструкций. В этой связи крайне важной задачей становится построения детальных и интерактивных семантических моделей окружающей среды в режиме реального времени с свойством поиска с открытым словарём классов, так называемых мультимодальных карт, а также способов рассуждения по ним. Такие представления могут нести в себе не только информацию о геометрии объектов, их взаимном расположении и динамике перемещения, но и описания объектов, семантические свойства поверхности (материалы, текстуры), взаимосвязи между сущностями, данные различных модальностей восприятия человека, таких как текст, речь, жесты, выражения лица и язык тела, для лучшего
понимания намерений и действий людей в рамках безопасной кооперации и т.д., что необходимо для полноценного глубокого когнитивного понимания автономным интеллектуальным агентом окружающего пространства.
С появлением больших глубоких нейронных моделей, натренированных на огромных наборах данных и демонстрирующих высокий уровень обобщения на данных не из обучающей выборки, так называемых фундаментальных моделей, за последние несколько лет начался взрывной рост исследовательской деятельности, направленной на использование таких моделей в интеллектуальной робототехнике, в частности, для построения мультимодальных карт. К самым значимым моделям можно отнести визуально-текстовую модель CLIP [1], AudioCLIP [2] и DINO [3] как кодировщики аудио и изображения соответственно, ImageBind [4] как пример многомодального кодировщика, разнообразные большие языковые модели как инструменты рассуждения на основе промежуточных сенсорных представлений и т.д.. Последние методы, такие как VLMaps [5], ConceptFusion [6], ConceptGraphs [7], HOV-SG [8] и т.д., выпущенные на основе упомянутых моделей, сейчас начинают показывать их высокий потенциал и возможности применения для задач высокоуровневного текстового управления для решения целевых задач, значительно упрощая взаимодействие человека и робота, робота и окружающей среды, однако все еще нуждаются в качественном скачке по критериям надежности, быстроты и качеству работы.
Разработка качественных мультимодальных представлений окружающего пространства потенциально может стать следующим качественным шагом на пути развития интеллектуальной автономной робототехники, так как очувствление и понимания окружающего мира машиной является ключевой технологией, выполняя роль аналога мозга у человека. Чем лучше работает такая система (в терминах качества решения итоговой задачи и скорости работы), тем больше выгоды можно получить от машины.
Целью данной работы является повышение качества и скорости построения мультимодальных карт на основе последовательности неразмеченных изображений, полученных с RGB-D камер интеллектуальных робототехнических агентов как в статических, так и в динамических средах, а также улучшение качества решения целевых задач (поиск объектов, ответы на вопросы) c их помощью.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Исследовать метод совместного обучения нейросетей по неразмеченной последовательности RGB изображений автономного интеллектуального агента, способный предсказывать глубину кадра и изменение положения центра камеры для трехмерной реконструкции окружающего пространства, а также выработать рекомендации по его качественной доработке.
2. Разработать метод построения статической мультимодальной карты помещения по последовательности неразмеченных изображений RGB-D камеры для понимания окружающего статического пространства автономным интеллектуальным агентом.
3. Разработать метод построения иерархической статической мультимодальной карты многоуровневого помещения по последовательности неразмеченных изображений RGB-D камеры для представления и семантического понимания окружающего статического пространства автономным интеллектуальным агентом.
4. Разработать метод учета динамических изменений в окружающей среде для отражения в мультимодальной карте и рассуждения на основе истории наблюдений по последовательности неразмеченных изображений RGB-D камеры автономного интеллектуального агента.
Соответствие пунктам паспорта специальности 1.2.1 Искусственный интеллект и машинное обучение. Проведенные в рамках подготовки диссертации исследования и полученные результаты соответствуют следующим пунктам паспорта специальности:
4. Разработка методов, алгоритмов и создание систем искусственного интеллекта и машинного обучения для обработки и анализа текстов на естественном языке, для изображений, речи, биомедицины и других специальных видов данных.
6. Формализация и постановка задач управления и (поддержки) принятия решений на основе систем искусственного интеллекта и машинного обучения. Разработка систем управления с использованием систем искусственного интеллекта и методов машинного обучения в том числе - управления роботами, автомобилями, БПЛА и т.п.
Научная новизна:
1. В рамках метода ERF-SfMLearner предложены улучшенные нейросетевые архитектуры моделей предсказания глубины кадра ERFDepthNet и изменения положения центра камеры ERFPoseNet на основе исследования влияния перцептивной области глубоких нейронных сетей при совместном обучении по неразмеченной последовательности RGB изображений.
2. В рамках метода BBQ-CLIP разработан подход к построению объектно-ориентированной мулътимодалъной карты статической среды по последовательности неразмеченных изображений RGB-D камеры с применением фундаментальных моделей компьютерного зрения и учетом требований к вычислительным ресурсам современных бортовых вычислительных систем.
3. Разработан OVIGo-3DHSG - метод построения иерархической мулътимодалъной карты многоуровневого помещения по последовательности неразмеченных изображений RGB-D камеры с применением фундаментальных моделей компьютерного зрения и учетом требований к вычислительным ресурсам современных бортовых вычислительных систем, а также способ эффективного многостадийного рассуждения по ней о большом окружающем статическом пространстве на основе графового представления сцены как между уровнями иерархии, так и внутри них, совместно с большой языковой моделью.
4. В рамках метода DyGEnc обучен энкодер текстового графа сцены, который отображает динамические изменения в окружающей среде для отражения в мультимодальной карте, происходящие на последовательности RGB-D изображений, а также дообучена большая языковая модель для рассуждения на основе истории наблюдений в виде набора латентных представлений мультимодальной динамической карты.
Практическая значимость состоит в нескольких аспектах:
1. Методы искусственного интеллекта:
а) Программная реализация нейросетевых архитектуры моделей предсказания глубины кадра ERFDepthNet и изменения положения центра камеры ERFPoseNet при совместном
обучении нейросетей по неразмеченной последовательности RGB изображений.
б) Программная реализация метода построения мультимодальной карты статической среды BBQ-CLIP по последовательности неразмеченных изображений RGB-D камеры.
в) Программная реализация метода построения иерархической статической мультимодальной карты OVIGo-3DHSG многоуровневого помещения по последовательности неразмеченных изображений RGB-D камеры и алгоритм её использования для представления и семантического понимания окружающего статического пространства автономным интеллектуальным агентом.
г) Программная реализация метода учета динамических изменений в окружающей среде DyGEnc для отражения в мультимодальной карте и рассуждения на основе истории наблюдений по последовательности неразмеченных изображений RGB-D камеры автономного интеллектуального агента (свидетельство о гос. регистрации прЭВМ).
2. Индустриальные приложения: элементы разработанных методов интегрированы в состав бортовых систем автономного управления робототехнических интеллектуальных агентов ведущих компаний России (Центр робототехники Сбербанка).
3. Учебный процесс: разработанные методы и алгоритмы могут быть применены для изучения студентами современных методов высокоуровневого управления с элементами искусственного интеллекта в робототехнике.
Методология и методы исследования. При создании алгоритмов применялись подходы машинного обучения, глубокого обучения и оптимизации. При разработке каждый добавляемый компонент детально проверялся на эффективность, с использованием методологии поэтапного улучшения. Оценка результатов происходила с помощью численных экспериментов на больших и разнообразных открытых наборах реальных сенсорных данных совместно с сравнением с аналогичными подходами к решению задачи с указанием методологий подсчета полученных количественных метрик. Для выполнения задач диссертации использовался фреймворк глубокого обучения PyTorch. В
качестве метода оптимизации применялся стохастический градиентный спуск с адаптивной оценкой моментов (Adam). Программная реализация методов и алгоритмов выполнялась на языке программирования Python 3, с использованием открытых модулей, предоставляющих различные функции — от визуализации до библиотек с открытыми реализациями фундаментальных моделей. При проведении экспериментов использовался подход контейнеризации на основе технологии Docker, который позволяет воспроизводить результаты на различных устройствах. Для логирования промежуточных результатов экспериментов с сохранением гиперпараметров экспериментов применялась библиотека Wandb.
Основные положения, выносимые на защиту:
1. Оригинальные нейросетевые архитектуры моделей предсказания глубины кадра ERFDepthNet и изменения положения центра камеры ERFPoseNet при совместном обучении нейросетей по неразмеченной последовательности RGB изображений в рамках подхода ERF-SfMLearner.
2. Быстрый и вычислительно эффективный алгоритм использования фундаментальных моделей для построения мультимодальной карты статического помещения в рамках метода BBQ-CLIP по последовательности неразмеченных изображений RGB-D камеры.
3. Метод иерархического представления многоуровневых статических помещений OVIGo-3DHSG по последовательности неразмеченных изображений RGB-D камеры и способ рассуждения по графовому представлению сцены.
4. Инновационная методология обучения графового энкодера текстовых представлений сцен совместно с адаптацией большой языковой модели для рассуждения в рамках метода DyGEnc для кодирования динамических изменений в среде и отражения в мультимодальной карте.
Достоверность результатов и выводов подтверждена экспериментальными исследованиями предложенных моделей, методов и алгоритмов, а также сравнением с актуальными методами аналогами на открытых наборах данных с указанием методологий подсчета полученных количественных метрик. Положения и выводы, изложенные в диссертации, прошли квалифицированную апробацию на международных и российских научных конференциях и семинарах. Достоверность результатов также подтверждается публикациями исследований в рецензируемых научных изданиях, а программных реализации методов - в
открытом доступе в сети Интернет с приведением всех ключевых параметров и конфигурационных файлов и инструкциями по воспроизведению результатов.
Апробация работы. Основные результаты по теме диссертации изложены в 6 печатных изданиях, 4 из которых изданы в журналах списка К1 (собственный перечень МФТИ), 5 - в периодических научных журналах, индексируемых Web of Science и Scopus.
Материалы диссертационной работы были представлены на международных конференциях:
- «Door opening strategy for mobile manipulator with constrained configuration», Международная конференция по интерактивной коллаборативной робототехнике «ICR-2022», 2022 г, Фучжоу/Китай
- «Влияние параметров нейросетевого представления на восстановление глубины сцены», 65-ая Всероссийская научная конференция МФТИ в честь 115-летия Л.Д. Ландау, 2023 г., Долгопрудный/Россия
- «Влияние перцептивной области глубоких нейронных сетей на предсказание глубины и собственного движения по данным монокулярной камеры», XXV Международная научно-техническая конференция «Нейроинформатика-2023», 2023 г, Москва/Россия
- «Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph», Международная конференция по робототехнике и автоматизации «ICRA-2025», 2025 г, Атланта/США
Личный вклад. В работах [165; 166] автор реализовал системы компьютерного зрения, состоящие из моделей распознавания (детекции и сегментации) объектов, и продемонстрировал их эффективность и работоспособность для выполнения прикладной задачи высокоуровневой навигации автономного интеллектуального робота. В работе [167] автор провел анализ влияния перцептивной области глубоких нейронных сетей при совместном обучении для задачи трехмерной реконструкции окружающего пространства по неразмеченной последовательности RGB изображений и на его основе предложил улучшенные нейросетевые архитектуры моделей предсказания глубины кадра ERFDepthNet и изменения положения центра камеры ERFPoseNet. В работе [168] автор разработал метод построения объектно-ориентированной мультимодальной карты статической среды по последовательности неразмеченных изображений RGB-D камеры с применением фундаментальных моделей компьютерного зрения и учетом требований
к вычислительным ресурсам современных бортовых вычислительных систем. В работе [169] автор предложил иерархию мультимодальной карты многоуровневого помещения, состоящую из этажей, комнат, локаций и объектов в них; улучшенный по сравнению с работой [168] алгоритм построения объектно-ориентированной мультимодальной карты статической среды по последовательности неразмеченных изображений RGB-D камеры с применением фундаментальных моделей компьютерного зрения и учетом требований к вычислительным ресурсам современных бортовых вычислительных систем; способ эффективного многостадийного рассуждения по иерархической мультимодальной карте на основе графового представления сцены как между уровнями иерархии, так и внутри них, совместно с большой языковой моделью. В работе [170] автор сформулировал методологию обучения энкодера текстового графа сцены и реализовал ее в рамках дообучения большой языковой модели на парах вопрос-ответ для понимания динамических изменений по истории наблюдений RGB-D кадров. К публикациям, в которых излагаются основные научные результаты диссертации на соискание учёной степени, приравнивается также полученное в соавторстве свидетельство на программу для электронных вычислительных машин [170], зарегистрированное в установленном порядке
Объем и структура работы. Диссертация состоит из введения, 5 глав, заключения и 1 приложения. Полный объём диссертации составляет 143 страницы, включая 18 рисунков и 17 таблиц. Список литературы содержит 170 наименований.
Глава 1. Обзор и анализ методов построения мультимодальных карт
Первая глава посвящена обзору и анализу методов построения мультимодальных карт, которые являются фундаментальным инструментом для решения задач визуального картирования и трехмерного моделирования окружающего пространства. В ходе главы рассматриваются теоретические основы визуального картирования, включая природу и типы входных данных, методы восстановления трехмерного положения объектов, формализацию выходных параметров, а также критерии оценки качества построенных карт. Особое внимание уделено развитию методов картирования - от классических геометрических подходов [9—15] и vSLAM [16] до современных нейросетевых технологий, включая Neural Radiance Fields, Gaussian Splatting и методы прямой регрессии структуры сцены. Дополнительно анализируются возможности RGB-D камер как источника мультимодальных данных, включая семантическое обогащение изображений и визуально-языковые эмбединги, а также современные подходы к интеграции различных типов данных для создания высокоточных мультимодальных карт с акцентом на методологию применения. Такой комплексный обзор обеспечивает системное понимание текущего состояния исследований и технологий в области мультимодального картирования, а также позволяет сформировать необходимую экспертизу для понимания заключительных разделов главы, которые посвящены научной идее и цели диссертационного исследования, вытекающей из обзора, общей постановке задач диссертации, введенным технические ограничениям и требованиям.
1.1 Теоретические основы задачи визуального картирования
Задача визуального картирования заключается в восстановлении пространственной структуры сцены на основе последовательности изображений, получаемых с одной или нескольких камер. В рамках данной главы вводятся основные понятия, обозначения и формальные определения, необходимые для понимания задачи визуального картирования. Особое внимание уделяется формализации входных и выходных данных, определению модели камеры и
описанию процедур пространственного восстановления на основе глубинной и цветовой информации.
Типовой сенсорной конфигурацией для задачи визуального картирования является RGB-D рт^1е-камера, обеспечивающая одновременную запись цветового изображения и карты глубины. Формально, входной поток можно представить в виде последовательности синхронизированных кадров:
I = = (Си ВД
т
*)}*=1
(1.1)
где
- С : О ^ К3 — цветовое изображение на момент времени £, определённое на дискретной двумерной сетке пикселей О с М2,
- Ю : О ^ и {0} — карта глубины на тот же момент времени,
- Т Е N — длина последовательности.
В дальнейшем предполагается, что внутренняя калибровка камеры известна и задаётся матрицей К е К3х3 следующего вида:
К
и о сх
0 и 00
У СУ
1
(1.2)
где ¡х, ¡У — фокусные расстояния в пикселях по осям х и у, (сх,сУ) — координаты
хУ
главной точки
Для восстановления положения трёхмерной точки в системе координат камеры используется обратное проецирование. Пусть и = (и,у)т Е О — координаты пикселя, а ( = ^(п, V) — соответствующее значение глубины. Тогда положение точки в системе координат камеры на момент времени £ определяется как:
(с) р]
= (■К
-1
Е К3
(1.3)
Если известна внешняя матрица преобразования Т Е БЕ(3), описывающая положение камеры в мировой системе координат, то точка в мировой системе координат вычисляется как:
_М _ T pt _ Tt
Pt
1
(c)'
T
t _
Rt tt
0T 1
(1.4)
где Rt е SO(3), tí е К3.
Картой (или моделью) сцены называется множество точек в мировой системе координат:
М = {р, е К3}^ , (1.5)
где каждая точка р, — результат пространственного восстановления из одного или нескольких кадров.
Если для каждой точки известна цветовая компонента, то карта может быть представлена в виде:
Mrgb _ {(pi, c,) I p, G R3, c, G R3}f
i=i
(1.6)
где c, — вектор цветовых компонент, например, в пространстве RGB.
Пусть Tt G SE(3) — преобразование от координатной системы камеры к мировой на момент времени t. Тогда траектория движения камеры определяется как:
т = {Т}г=1 . (1.7)
Обобщённая задача визуального картирования заключается в построении отображения:
Т : Х^М, (1.8)
где Х — последовательность RGB-D кадров, а М — соответствующая восстановленная трёхмерная модель сцены.
Если одновременно восстанавливается и траектория камеры, можно определить обобщённую функцию вида:
Тш : Х ^ (М, Т). (1.9)
Качественная карта сцены должна обладать следующими свойствами:
- Геометрическая согласованность: отсутствие рассогласований между частями карты, соответствующими пересекающимся областям;
- Плотность: степень покрытия пространства восстановленными точками;
- Точность: степень соответствия восстановленных координат реальной геометрии сцены;
- Фотореализм (для Мг^ъ): согласованность цветовой информации с визуальными данными.
На практике карта может быть представлена не только в виде облака точек, но и в других формах, таких как:
- воксельные структуры V : Z3 ^ {0,1} или К;
- триангулированные поверхности 5 с К3;
- нейронные представления сцены Ф(х), параметризованные нейросетевыми моделями и прочими видами, которые будут рассмотрены в следующей секции.
1.2 Существующие методы картирования окружающего пространства
Методы картирования окружающего пространства играют ключевую роль в современных системах робототехники и компьютерного зрения. С появлением сенсоров, способных одновременно фиксировать цветовую информацию и глубину сцены (RGB-D), открылись новые возможности для точного и быстрого построения трехмерных моделей окружающей среды. Развитие этих методов отражает эволюцию от простых алгоритмов реконструкции на основе стереозрения к фундаментальным нейросетевым подходам, объединяющим визуальные и глубинные данные, что позволило значительно повысить точность, скорость и надежность картографирования в реальном времени. В данной главе рассматриваются ключевые группы методов в порядке появления, приводится краткое содержательное описание принципа работы, а также рассматриваются особенности и влияние на современные методы.
1.2.1 Классические геометрические методы
Одним из ключевых этапов развития методов построения карт окружающего пространства стало формирование геометрического подхода
к восстановлению трёхмерной структуры сцены из изображений. Центральной задачей в данном направлении является задача Structure from Motion (SfM) [9], или «восстановление структуры из движения». Эта задача направлена на одновременное определение трехмерной геометрии наблюдаемой сцены и параметров движения камеры, используя только информацию, получаемую с двумерных изображений, без явного использования глубины.
Постановка задачи Structure from Motion. Пусть задана последовательность T изображений сцены, полученных с одной камеры в разные моменты времени. Обозначим множество изображений:
C _ {Ct :Qt ^ R3}f=1, (1.10)
где Ct — изображение в момент времени t, а ^t С N — множество пикселей.
На изображениях выделяются и отслеживаются характерные точки (например, углы, пятна, ключевые дескрипторы). Обозначим xi t G Qt — координату i-й наблюдаемой точки на t-м изображении. Тогда для каждого наблюдаемого трёхмерного объекта Р, G R3 существует множество его проекций:
xi,t _ n(Tt, Р,), (1.11)
где:
- Tt G SE(3) — матрица внешнего преобразования камеры в момент времени t, состоящая из поворота Rt G SO(3) и смещения tt g R3,
- п( ) — функция проецирования трёхмерной точки на изображение с учётом параметров камеры.
Если используется модель камеры с перспективной проекцией, то функция п определяется как:
n(Tt, Р,)_ K • [Rt | tt]
Р,
1
(1.12)
где К е К3х3 — матрица внутренней калибровки камеры.
Пусть даны координаты N точек на Т изображениях: {х^}. Тогда задача $£М заключается в одновременном восстановлении: - трёхмерных координат точек {Р,}^,
- параметров движения камеры {Tt}f=1,
таких, что проекции xi;t « n(Tt, P,) минимизируют заданный критерий ошибки.
Оценка относительного движения: эпиполярная геометрия. Ключевым строительным блоком классических методов SfM является двухкадровая геометрия, то есть восстановление относительного положения камер по совпадающим точкам на двух изображениях. Пусть известны координаты соответствующих точек x, ^ xj на двух изображениях.
Матрица F Е R3x3 называется фундаментальной, если для каждой пары соответствующих точек выполняется:
xfFXi = 0. (1.13)
Если калибровка известна, вместо F используют основную матрицу E, которая связывает нормализованные координаты:
E = KT FK, pTEp, = 0, (1.14)
где p, = K_1Xi, pj = K-1xj — нормализованные координаты.
Из матрицы E можно восстановить относительное движение между двумя камерами — поворот R Е SO(3) и направление смещения t Е R3, с точностью до масштаба.
Многокадровая оптимизация и Bundle Adjustment. После восстановления начального приближения всех параметров сцены выполняется глобальная оптимизация — процедура bundle adjustment, минимизирующая сумму квадратов ошибок между наблюдаемыми и предсказанными проекциями:
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Повышение точности позиционирования камеры в системе прикладного телевидения с использованием расширенного фильтра Калмана2021 год, кандидат наук Антипов Владимир Алексеевич
Телевизионная система объемного зрения для управления движением мобильного робота2011 год, кандидат технических наук Володин, Юрий Сергеевич
Методы структурного анализа изображений трехмерных сцен2014 год, кандидат наук Малашин, Роман Олегович
Повышение эффективности алгоритмов визуальной навигации за счет использования семантического описания сцен2025 год, кандидат наук Гиренко Дмитрий Сергеевич
Разработка и исследование методов обнаружения препятствий движению интеллектуального транспорта на основе мультиспектральной системы технического зрения2025 год, кандидат наук Шепель Илья Олегович
Список литературы диссертационного исследования кандидат наук Линок Сергей Александрович, 2025 год
Список литературы
1. Radford A. [et al.]. Learning Transferable Visual Models From Natural Language Supervision. — 2021. — arXiv: 2103.00020 [cs.CV]. — URL: https://arxiv.org/abs/2103.00020 ; (Дата обращения: 26.02.2023).
2. GuzhovA., Raue F., Hees J., Dengel A. Audioclip: Extending Clip to Image, Text and Audio // ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE, 05/2022. - P. 976-980. -DOI: 10.1109/icassp43922.2022.9747631. -URL: http://dx.doi.org/10.1109/ icassp43922.2022.9747631.
3. Caron M., Touvron H., Misra I., Jegou H., Mairal J., Bojanowski P., Joulin A. Emerging Properties in Self-Supervised Vision Transformers // 2021 IEEE/CVF International Conference on Computer Vision (ICCV). — IEEE, 10/2021. — P. 4015-4026. -DOI: 10.1109/iccv48922.2021.00951. -URL: http://dx.doi. org/10.1109/iccv48922.2021.00951.
4. Girdhar R., El-Nouby A., Liu Z., Singh M., Alwala K. V., Joulin A., Misra I. ImageBind One Embedding Space to Bind Them All // 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2023. -P. 15180-15190. - DOI: 10.1109/cvpr52729.2023.01457. -URL: http://dx.doi.org/10.1109/cvpr52729.2023.01457.
5. Huang C., Mees O., Zeng A., Burgard W. Visual Language Maps for Robot Navigation // 2023 IEEE International Conference on Robotics and Automation (ICRA). - IEEE, 05/2023. -P. 10608-10615. -DOI: 10.1109/icra48891. 2023.10160969. - URL: http://dx.doi.org/10.1109/icra48891.2023.10160969.
6. Jatavallabhula K. [etal.]. ConceptFusion: Open-set multimodal 3D mapping// Robotics: Science and Systems XIX. —Robotics: Science, Systems Foundation, 07/2023. — (RSS2023). - DOI: 10.15607/rss.2023.xix.066. - URL: http: //dx.doi.org/10.15607/rss.2023.xix.066.
7. Gu Q. [et al.]. ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning // 2024 IEEE International Conference on Robotics and Automation (ICRA). — IEEE, 05/2024. — P. 5021—5028. — DOI: 10.1109/
icra57147.2024.10610243. — URL: http://dx.doi.org/10.1109/icra57147.2024. 10610243.
8. Werby A., Huang C., Büchner M., Valada A., Burgard W. Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation// Robotics: Science and Systems XX. — Robotics: Science, Systems Foundation, 07/2024. — (RSS2024). — DOI: 10.15607/rss.2024.xx.077. — URL: http: //dx.doi.org/10.15607/rss.2024.xx.077.
9. Longuet-Higgins H. A computer algorithm for reconstructing a scene from two projections // Readings in Computer Vision. — Elsevier, 1987. — P. 61—62. — DOI: 10.1016/b978-0-08-051581-6.50012-x. — URL: http://dx.doi.org/10. 1016/b978-0-08-051581-6.50012-x.
10. Tomasi C., Kanade T. Shape and motion from image streams under orthography: a factorization method // International Journal of Computer Vision. — 1992. — Nov.— Vol. 9, no. 2. — P. 137—154. — DOI: 10.1007/bf00129684. — URL: http://dx.doi.org/10.1007/bf00129684.
11. Crandall D., Snavely N.Modeling People and Places with Internet Photo Collections: Understanding the world from the sea of online photos // Queue. — 2012. -May. - Vol. 10, no. 5. - P. 30-44. -DOI: 10.1145/2208917. 2212756. - URL: http://dx.doi.org/10.1145/2208917.2212756.
12. Agarwal S., Furukawa Y., Snavely N., Simon I., CurlessB., SeitzS. M., SzeliskiR. Building rome in a day // Communications of the ACM. — 2011. — Vol. 54, no. 10. — P. 105—112. — URL: https://dl.acm.org/doi/pdf/10.1145/2001269. 2001293.
13. Seitz S., Curless B., Diebel J., Scharstein D., Szeliski R A Comparison and Evaluation of Multi-View Stereo Reconstruction Algorithms // 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition -Volume 1 (CVPR'06). Vol. 1. — IEEE. — P. 519—528. — DOI: 10.1109/cvpr. 2006.19. — URL: http://dx.doi.org/10.1109/cvpr.2006.19.
14. Furukawa Y., Ponce J. Accurate, Dense, and Robust Multi-View Stereopsis // 2007 IEEE Conference on Computer Vision and Pattern Recognition. — IEEE, 06/2007. —P. 1—8. —DOI: 10.1109/cvpr. 2007.383246. —URL: http: //dx.doi.org/10.1109/cvpr.2007.383246.
15. Schönberger J. L., Frahm J.-M. Structure-from-Motion Revisited // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2016. — DOI: 10.1109/cvpr.2016.445. - URL: http://dx.doi.org/10.1109/ cvpr.2016.445.
16. Davison A. J.Reid I. D., Molton N. D., Stasse O. MonoSLAM: Real-Time Single Camera SLAM // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2007. — June. — Vol. 29, no. 6. — P. 1052—1067. — DOI: 10.1109/tpami.2007.1049. — URL: http://dx.doi.org/10.1109/tpami.2007.1049.
17. Durrant-Whyte H., Bailey T. Simultaneous localization and mapping: part I // IEEE Robotics; Automation Magazine. — 2006. — June. — Vol. 13, no. 2. — P. 99—110. — DOI: 10.1109/mra.2006.1638022. — URL: http://dx.doi.org/10. 1109/mra.2006.1638022.
18. Chli M. Visual Simultaneous Localization and Mapping // Encyclopedia of Robotics. — Springer Berlin Heidelberg, 2020. —P. 1—8. —DOI: 10.1007/978-3-642-41610-1_72-1. - URL: http://dx.doi.org/10.1007/978-3-642-41610-1_72-1.
19. Nister D., Naroditsky O., Bergen J. Visual odometry // Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004. CVPR 2004. Vol. 1. — IEEE. — P. 652—659. — DOI: 10. 1109/cvpr.2004.1315094. — URL: http://dx.doi. org/10. 1109/cvpr.2004. 1315094.
20. Newcombe R. A., Davison A. J., Izadi S., Kohli P., Hilliges O., Shotton J., Molyneaux D., Hodges S., Kim D., Fitzgibbon A. KinectFusion: Real-time dense surface mapping and tracking // 2011 10th IEEE International Symposium on Mixed and Augmented Reality. — IEEE, 10/2011. —DOI: 10.1109/ismar. 2011.6162880. -URL: http://dx.doi.org/10.1109/ismar.2011.6162880.
21. Kerl C., Sturm J., Cremers D. Dense visual SLAM for RGB-D cameras //2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. — IEEE, 11/2013. -P. 2100-2106. -DOI: 10.1109/iros.2013.6696650. -URL: http: //dx.doi.org/10.1109/iros.2013.6696650.
22. Whelan T, Leutenegger S., Salas Moreno R., Glocker B., Davison A. ElasticFusion: Dense SLAM Without A Pose Graph // Robotics: Science and Systems XI. — Robotics: Science, Systems Foundation, 07/2015. — (RSS2015). — DOI: 10.15607/rss. 2015. xi. 001. —URL: http://dx.doi. org/10.15607/rss.2015.xi.001.
23. Tanaka T., Sasagawa Y., Okatani T. Learning to Bundle-adjust: A Graph Network Approach to Faster Optimization of Bundle Adjustment for Vehicular SLAM // 2021 IEEE/CVF International Conference on Computer Vision (ICCV). - IEEE, 10/2021. - P. 6230-6239. - DOI: 10.1109/iccv48922. 2021.00619. -URL: http://dx.doi.org/10.1109/iccv48922.2021.00619.
24. Yuan Z., Cheng K., Tang J., Yang X. RGB-D DSO: Direct Sparse Odometry With RGB-D Cameras for Indoor Scenes // IEEE Transactions on Multimedia. — 2022. - Vol.24. -P. 4092-4101. -DOI: 10.1109/tmm.2021.3114546. -URL: http://dx.doi.org/10.1109/tmm.2021.3114546.
25. Mildenhall B., Srinivasan P. P., Tancik M., Barron J. T., Ramamoorthi R., Ng R NeRF: representing scenes as neural radiance fields for view synthesis // Communications of the ACM. — 2021. — Dec. — Vol. 65, no. 1. — P. 99—106. —DOI: 10.1145/3503250. —URL: http://dx.doi.org/10.1145/ 3503250.
26. Deng K., Liu A., Zhu J.-Y., Ramanan D. Depth-supervised NeRF: Fewer Views and Faster Training for Free // 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2022. —P. 12882—12891. — DOI: 10.1109/cvpr52688.2022.01254. - URL: http://dx.doi.org/10.1109/ cvpr52688.2022.01254.
27. Wang G., Chen Z., Loy C. C., Liu Z. SparseNeRF: Distilling Depth Ranking for Few-shot Novel View Synthesis // 2023 IEEE/CVF International Conference on Computer Vision (ICCV). — IEEE, 10/2023. — P. 9065—9076. — DOI: 10.1109/iccv51070.2023.00832. — URL: http://dx.doi.org/10.1109/iccv51070. 2023.00832.
28. Sun C., Sun M., Chen H.-T. Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction // 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2022. —
P. 5459—5469. — DOI: 10 . 1109 / cvpr52688 . 2022 . 00538. — URL: http: //dx.doi.org/10.1109/cvpr52688.2022.00538.
29. Chen A., Xu Z., Geiger A., Yu J., Su H. TensoRF: Tensorial Radiance Fields // Computer Vision - ECCV 2022. — Springer Nature Switzerland, 2022. — P. 333-350. -DOI: 10.1007/978-3-031 - 19824-3_20. -URL: http: //dx.doi.org/10.1007/978-3-031-19824-3_20.
30. Yen-Chen L., Florence P, Barron J. T., Rodriguez A., Isola P, Lin T.-Y. iNeRF: Inverting Neural Radiance Fields for Pose Estimation // 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). — IEEE, 09/2021. -P. 1323-1330. -DOI: 10.1109/iros51168.2021.9636708. -URL: http://dx.doi.org/10.1109/iros51168.2021.9636708.
31. Lin C.-H., Ma W.-C., Torralba A., Lucey S. BARF: Bundle-Adjusting Neural Radiance Fields // 2021 IEEE/CVF International Conference on Computer Vision (ICCV). -IEEE, 10/2021. - P. 5721-5731. -DOI: 10.1109/ iccv48922.2021. 00569. —URL: http://dx.doi.org/10.1109/iccv48922. 2021.00569.
32. Zhu Z., Peng S., Larsson V., Xu W., Bao H., Cui Z., Oswald M. R., Pollefeys M. NICE-SLAM: Neural Implicit Scalable Encoding for SLAM // 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2022. -P. 12786-12796. - DOI: 10.1109/cvpr52688.2022.01245. -URL: http://dx.doi.org/10.1109/cvpr52688.2022.01245.
33. Sucar E., Liu S., Ortiz J., Davison A. J. iMAP: Implicit Mapping and Positioning in Real-Time // 2021 IEEE/CVF International Conference on Computer Vision (ICCV). - IEEE, 10/2021. - P. 6209-6218. - DOI: 10.1109/iccv48922. 2021.00617. -URL: http://dx.doi.org/10.1109/iccv48922.2021.00617.
34. Kerbl B., Kopanas G., Leimkuehler T., Drettakis G. 3D Gaussian Splatting for Real-Time Radiance Field Rendering // ACM Transactions on Graphics. — 2023. - July. - Vol. 42, no. 4. -P. 1-14. - DOI: 10.1145/3592433. -URL: http://dx.doi.org/10.1145/3592433.
35. Yugay V., Li Y., Gevers T., OswaldM. R. Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting. — 2024. — arXiv: 2312.10070 [cs.CV]. — URL: https://arxiv.org/abs/2312.10070 ; (Дата обращения: 22.07.2024).
36. Wu GYi T., Fang J.., Xie L., Zhang X., Wei W, Liu W., Tan Wang X 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. -P. 20310-20320. - DOI: 10.1109/cvpr52733.2024.01920. -URL: http://dx.doi.org/10.1109/cvpr52733.2024.01920.
37. Chen H., Li C., Wang Y., Lee G. H. NeuSG: Neural Implicit Surface Reconstruction with 3D Gaussian Splatting Guidance. — 2025. — arXiv: 2312. 00846 [cs.CV]. — URL: https : / / arxiv . org / abs /2312. 00846 ; (Дата обращения: 18.06.2024).
38. Matsuki H., Murai R., Kelly P. H. J., Davison A. J. Gaussian Splatting SLAM // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). - IEEE, 06/2024. - P. 18039-18048. - DOI: 10.1109/cvpr52733. 2024.01708. — URL: http://dx.doi.org/10.1109/cvpr52733.2024.01708.
39. Yan C., Qu D., Xu D., Zhao B., Wang Z., Wang D., Li X. GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. — P. 19595—19604. —DOI: 10.1109/cvpr52733.2024.01853. — URL: http: //dx.doi.org/10.1109/cvpr52733.2024.01853.
40. Wang S., Leroy V., Cabon Y., Chidlovskii B., Revaud J.DUSt3R: Geometric 3D Vision Made Easy // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. — P. 20697—20709. — DOI: 10.1109/cvpr52733.2024.01956. — URL: http://dx.doi.org/10.1109/cvpr52733. 2024.01956.
41. Tang Z., Fan Y., Wang D., XuH., Ranjan R., Schwing A., Yan Z. MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds // 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2025. - P. 5283-5293. - DOI: 10.1109/cvpr52734.2025.00498. -URL: http://dx.doi.org/10.1109/cvpr52734.2025.00498.
42. Wang H., Agapito L. 3D Reconstruction with Spatial Memory // 2025 International Conference on 3D Vision (3DV). — IEEE, 03/2025. — P. 78-89. -DOI: 10 . 1109/3dv66043 . 2025 . 00013. -URL: http://dx. doi.org/10.1109/3dv66043.2025.00013.
43. Jain J., Li J., Chiu M., Hassani A., Orlov N., Shi H. OneFormer: One Transformer to Rule Universal Image Segmentation // 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2023. -P. 2989-2998. — DOI: 10.1109/cvpr52729.2023.00292. -URL: http://dx.doi.org/10.1109/cvpr52729.2023.00292.
44. Zou X. [et al.]. Generalized Decoding for Pixel, Image, and Language // 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2023. - P. 15116-15127. -DOI: 10 . 1109/cvpr52729 . 2023 . 01451. — URL: http://dx.doi.org/10.1109/cvpr52729.2023.01451.
45. Li X., Yuan H., Li W., Ding H., Wu S., Zhang W., Li Y, Chen K., Loy C. C. OMG-Seg: Is One Model Good Enough for all Segmentation? // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. - P. 27948-27959. - DOI: 10.1109/cvpr52733.2024.02640. -URL: http://dx.doi.org/10.1109/cvpr52733.2024.02640.
46. Fang Y, Sun Q., Wang X., Huang T., Wang X., Cao Y. EVA-02: A visual representation for neon genesis // Image and Vision Computing. — 2024. — Sept.—Vol. 149. —P. 105171. —DOI: 10.1016/j .imavis.2024.105171. — URL: http://dx.doi.org/10.1016/j.imavis.2024.105171.
47. Sun Q., Wang J.., Yu Q., Cui Y, Zhang F., Zhang X., Wang X. EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters. — 2024. — arXiv: 2402 . 04252 [cs.CV]. — URL: https://arxiv. org/abs/2402. 04252 ; (Дата обращения: 15.03.2024).
48. Zhai X., Mustafa B., Kolesnikov A., Beyer L. Sigmoid Loss for Language Image Pre-Training // 2023 IEEE/CVF International Conference on Computer Vision (ICCV). -IEEE, 10/2023. -P. 11975-11986. -DOI: 10.1109/iccv51070. 2023.01100. -URL: http://dx.doi.org/10.1109/iccv51070.2023.01100.
49. Mu N., Kirillov A., Wagner D., Xie S. SLIP: Self-supervision Meets Language-Image Pre-training // Computer Vision - ECCV 2022. — Springer Nature Switzerland, 2022. — P. 529—544. — DOI: 10.1007/978-3-031-19809-0_30. - URL: http://dx.doi.org/10.1007/978-3-031-19809-0_30.
50. Sun Z., Fang Y., Wu T., Zhang P., Zang Y., Kong S., Xiong Y., Lin D., Wang J. Alpha-CLIP: A CLIP Model Focusing on Wherever you Want // 2024IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. -P. 13019-13029. - DOI: 10.1109/cvpr52733.2024.01237. -URL: http://dx.doi.org/10.1109/cvpr52733.2024.01237.
51. Kirillov A. [et al.]. Segment Anything // 2023 IEEE/CVF International Conference on Computer Vision (ICCV). — IEEE, 10/2023. — DOI: 10.1109/ iccv51070.2023.00371. — URL: http://dx.doi.org/10.1109/iccv51070.2023. 00371.
52. Zou X., Yang J., Zhang H., Li F., Li L., Wang J., Wang L., Gao J., Lee Y. J. Segment everything everywhere all at once // Advances in neural information processing systems. —2023. — Vol. 36. — P. 19769—19782. — URL: https: //dl.acm.org/doi/10.5555/3666122.3666990.
53. Liu H., Li C., Wu Q., Lee Y. J.Visual instruction tuning // Advances in neural information processing systems. —2023. —Vol. 36. —P. 34892—34916. — DOI: 10.5555/3666122.3667638. — URL: https://dl.acm.org/doi/abs/10.5555/ 3666122.3667638.
54. Li J., Li D., Savarese S., Hoi S. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models // International conference on machine learning. — PMLR. 2023. — P. 19730—19742. — URL: https://dl.acm.org/doi/10.5555/3618408.3619222.
55. Ranzinger M., Heinrich G., Kautz J., Molchanov P. AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). - IEEE, 06/2024. - P. 12490-12500. - DOI: 10.1109/cvpr52733. 2024.01187. -URL: http://dx.doi.org/10.1109/cvpr52733.2024.01187.
56. Wu S.-C., Tateno K., Navab N., Tombari F. Incremental 3D Semantic Scene Graph Prediction from RGB Sequences // 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2023. — P. 5064—5074. — DOI: 10 . 1109 / cvpr52729 . 2023 . 00490. — URL: http: //dx.doi.org/10.1109/cvpr52729.2023.00490.
57. Tsimpoukelli M., Menick J. L., Cabi S., Eslami S., Vinyals O., Hill F. Multimodal few-shot learning with frozen language models // Advances in Neural Information Processing Systems. —2021. —Vol. 34. —P. 200—212. — URL: https://dl.acm.org/doi/10.5555/3540261.3540277.
58. LiuH., LiC., Li Y., Lee Y J.Improved Baselines with Visual Instruction Tuning// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). - IEEE, 06/2024. - P. 26286-26296. — DOI: 10.1109/cvpr52733. 2024.02484. - URL: http://dx.doi.org/10.1109/cvpr52733.2024.02484.
59. Liu H., LiC., Li Y., Li B., Zhang Y., Shen S., Lee Y. J.LLaVA-NeXT: Improved reasoning, OCR, and world knowledge. — 01/2024. — URL: https ://llava-vl.github.io/blog/2024-01-30-llava-next/; (Дата обращения: 10.02.2024).
60. Tsagkas N., Aodha O. M., Lu C. X. VL-Fields: Towards Language-Grounded Neural Implicit Spatial Representations. — 2023. — arXiv: 2305 . 12427 [cs.CV]. — URL: https://arxiv. org/abs/2305. 12427 ; (Дата обращения: 10.06.2023).
61. Ha H., Song S. Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models. — 2022. — arXiv: 2207 . 11514 [cs.CV]. —URL: https://arxiv.org/abs/2207.11514 ; (Дата обращения: 18.12.2022).
62. Lu S., Chang H., Jing E. P., Boularias A., Bekris K. Ovir-3d: Open-vocabulary 3d instance retrieval without training on 3d data // Conference on Robot Learning. — PMLR. 2023. — P. 1610—1620. — URL: https://proceedings. mlr.press/v229/lu23a.html.
63. Yamazaki K., Hanyu T., Vo K., Pham T., Tran M., Doretto G., Nguyen A., Le N.Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation // 2024 IEEE International Conference on Robotics and Automation (ICRA). — IEEE, 05/2024. — P. 9411—9417. — DOI: 10.1109/ icra57147.2024.10610193. — URL: http://dx.doi.org/10.1109/icra57147.2024. 10610193.
64. Hong Y., Zhen H., Chen P, Zheng S., Du Y., Chen Z., Gan C. 3d-llm: Injecting the 3d world into large language models // Advances in Neural Information Processing Systems. —2023. — Vol. 36. — P. 20482—20494. — URL: https: //dl.acm.org/doi/10.5555/3666122.3667022.
65. Huang Z., WuX., ChenX., Zhao H., Zhu L., Lasenby J. OpenIns3D: Snap and Lookup for 3D Open-Vocabulary Instance Segmentation // Computer Vision -ECCV2024. — Springer Nature Switzerland, 10/2024. — P. 169—185. — DOI: 10.1007/978-3-031-73033-7_10. - URL: http://dx.doi.org/10.1007/978-3-031-73033-7_10.
66. Huang H., Chen Y., Wang Z., Huang R., Xu R., Wang T., Liu L., Cheng X., Zhao Y., Pang J., [et al.]. Chat-scene: Bridging 3d scene and large language models with object identifiers // Advances in Neural Information Processing Systems. — 2024. — Vol.37. —P. 113991—114017. —URL: https://dl. acm.org/doi/10.5555/3737916.3741536.
67. Nguyen P, Ngo T. D., Kalogerakis E., Gan C., Tran A., Pham C., Nguyen K. Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. — P. 4018—4028. — DOI: 10.1109/ cvpr52733.2024.00385.— URL: http://dx.doi.org/10. 1109/cvpr52733.2024. 00385.
68. Yang J., Ding R., Deng W., Wang Z., Xiaojuan Q. RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. — P. 19823—19832. — DOI: 10.1109/cvpr52733.2024.01874. — URL: http://dx.doi.org/10.1109/cvpr52733. 2024.01874.
69. Takmaz A., Fedele E., Sumner R. W., Pollefeys M., Tombari F., Engelmann F. OpenMask3D: Open-Vocabulary 3D Instance Segmentation. — 2023. — arXiv: 2306.13631 [cs.CV]. —URL: https://arxiv.org/abs/2306.13631 ; (Дата обращения: 01.11.2023).
70. Peng S., Genova K., Jiang C., Tagliasacchi A., Pollefeys M., Funkhouser T. OpenScene: 3D Scene Understanding with Open Vocabularies // 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2023. — DOI: 10 . 1109/cvpr52729. 2023 . 00085. — URL: http: //dx.doi.org/10.1109/cvpr52729.2023.00085.
71. Koch S., Vaskevicius N., Colosi M., Hermosilla P, Ropinski T. Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with Queryable Objects and Open-Set Relationships // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. —P. 14183—14193. — DOI: 10.1109/cvpr52733.2024.01345. — URL: http://dx.doi.org/10.1109/ cvpr52733.2024.01345.
72. Fu R., Liu J., Chen X., Nie Y., Xiong W. Scene-LLM: Extending Language Model for 3D Visual Reasoning // 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). — IEEE, 02/2025. —P. 2195—2206. —DOI: 10. 1109/wacv61041.2025.00220. -URL: http://dx.doi.org/10.1109/ wacv61041.2025.00220.
73. Yin Y., Liu Y., Xiao Y., Cohen-Or D., Huang J., Chen B. SAI3D: Segment any Instance in 3D Scenes // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. — P. 3292—3302. — DOI: 10.1109/cvpr52733.2024.00317. — URL: http://dx.doi.org/10.1109/cvpr52733. 2024.00317.
74. Kerr J., Kim C. M., Goldberg K., Kanazawa A., Tancik M. LERF: Language Embedded Radiance Fields // 2023 IEEE/CVF International Conference on Computer Vision (ICCV). — IEEE, 10/2023. — P. 19672—19682. — DOI: 10.1109/iccv51070.2023.01807. — URL: http://dx.doi.org/ 10.1109/iccv51070. 2023.01807.
75. LiuK., ZhanF., ZhangJ., XuM., YuY., ElSaddikA., Theobalt C., XingE., LuS. Weakly supervised 3d open-vocabulary segmentation // Advances in Neural Information Processing Systems. — 2023. — Vol. 36. — P. 53433—53456. — URL: https://dl.acm.org/doi/10.5555/3666122.3668447.
76. Liao G., Zhou K., Bao Z., Liu K., Li Q. OV-NeRF: Open-Vocabulary Neural Radiance Fields With Vision and Language Foundation Models for 3D Semantic Understanding // IEEE Transactions on Circuits and Systems for Video Technology. — 2024. — Dec. — Vol. 34, no. 12. — P. 12923—12936. — DOI: 10. 1109/tcsvt.2024.3439737. — URL: http://dx.doi.org/10. 1109/tcsvt.2024. 3439737.
77. Tie M., Wei J., Wu K., Wang Z., Yuan S., Zhang K., Jia J., Zhao J., Gan Z., Ding W. O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation // Computer Vision - ECCV 2024. — Springer Nature Switzerland, 11/2024. -P. 318-333. - DOI: 10.1007/978-3-031-73021-4_19. -URL: http://dx.doi.org/10.1007/978-3-031-73021-4_19.
78. Ying H., Yin Y., Zhang J., Wang F., Yu T., Huang R., Fang L. OmniSeg3D: Omniversal 3D Segmentation via Hierarchical Contrastive Learning // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. - P. 20612-20622. -DOI: 10 . 1109/cvpr52733 . 2024 . 01948. — URL: http://dx.doi.org/10.1109/cvpr52733.2024.01948.
79. Shi J.-C., WangM., Duan H.-B., Guan S.-H. Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. — P. 5333—5343. —DOI: 10 . 1109/cvpr52733 . 2024 . 00510. —URL: http: //dx.doi.org/10.1109/cvpr52733.2024.00510.
80. Qin M., Li W., Zhou J., Wang H., Pfister H. LangSplat: 3D Language Gaussian Splatting // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. — P. 20051—20060. —DOI: 10. 1109/cvpr52733.2024.01895. — URL: http://dx.doi.org/10. 1109/cvpr52733. 2024.01895.
81. Zhou S., Chang H., Jiang S., Fan Z., Zhu Z., Xu D., Chari P., You S., Wang Z., Kadambi A. Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. — P. 21676—21685. — DOI: 10.1109/cvpr52733.2024.02048. — URL: http://dx.doi.org/10.1109/cvpr52733. 2024.02048.
82. Zhu X., Zhou H., Xing P, Zhao L., Xu H., Liang J., Hauptmann A., Liu T., Gallagher A. Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models // Computer Vision - ECCV 2024. — Springer Nature Switzerland, 11/2024. — P. 357—375. — DOI: 10.1007/978-3-031-73397-0_21. -URL: http://dx.doi.org/10.1007/978-3-031-73397-0_21.
83. Armeni I., He Z.-Y., Zamir A., Gwak J., Malik J., Fischer M., Savarese S. 3D Scene Graph: A Structure for Unified Semantics, 3D Space, and Camera //2019 IEEE/CVF International Conference on Computer Vision (ICCV). — IEEE, 10/2019. — DOI: 10.1109/iccv.2019.00576. —URL: http://dx.doi.org/ 10.1109/iccv.2019.00576.
84. Hughes N., Chang Y., Carlone L. Hydra: A Real-time Spatial Perception System for 3D Scene Graph Construction and Optimization // Robotics: Science and Systems XVIII. — Robotics: Science, Systems Foundation, 06/2022. — (RSS2022). — DOI: 10.15607/rss.2022.xviii.050. — URL: http://dx.doi. org/10.15607/rss.2022.xviii.050.
85. Kim U.-H., Park J.-M., Song T.-j., Kim J.-H. 3-D Scene Graph: A Sparse and Semantic Representation of Physical Environments for Intelligent Agents // IEEE Transactions on Cybernetics. — 2020. — Dec. — Vol. 50, no. 12. — P. 4921-4933. -DOI: 10.1109/tcyb.2019.2931042. -URL: http://dx.doi. org/10.1109/tcyb.2019.2931042.
86. WangZ., ChengB., ZhaoL.,XuD., Tang Y., ShengL. VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic Scene Graph Prediction in Point Cloud // 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2023. — P. 21560—21569. —DOI: 10. 1109/cvpr52729.2023.02065. — URL: http://dx.doi.org/10. 1109/cvpr52729. 2023.02065.
87. Zhang C., Yang X., Hou J., Kitani K., Cai W., Chu F-J.EgoSG: Learning 3D Scene Graphs from Egocentric RGB-D Sequences // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). — IEEE, 06/2024. — P. 2535—2545. — DOI: 10.1109/cvprw63382. 2024.00260. - URL: http://dx.doi.org/10.1109/cvprw63382.2024.00260.
88. Chen L., Wang X., LuJ., Lin S., Wang C., He G. CLIP-Driven Open-Vocabulary 3D Scene Graph Generation via Cross-Modality Contrastive Learning // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. - P. 27863-27873. -DOI: 10 . 1109/cvpr52733 . 2024 . 02632. - URL: http://dx.doi.org/10.1109/cvpr52733.2024.02632.
89. Wald JDhamo H., Navab N., Tombari F. Learning 3D Semantic Scene Graphs From 3D Indoor Reconstructions // 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2020. —P. 3961—3970. — DOI: 10.1109/cvpr42600.2020.00402. - URL: http://dx.doi.org/10.1109/ cvpr42600.2020.00402.
90. Wald J., Navab N., Tombari F. Learning 3D Semantic Scene Graphs with Instance Embeddings // International Journal of Computer Vision. — 2022. — Jan.-Vol. 130, no. 3. -P. 630-651. -DOI: 10.1007/s11263-021-01546-9. - URL: http://dx.doi.org/10.1007/s11263-021-01546-9.
91. Honerkamp D., Büchner M., Despinoy F., Welschehold T., Valada A. Language-Grounded Dynamic Scene Graphs for Interactive Object Search With Mobile Manipulation // IEEE Robotics and Automation Letters. — 2024. — Oct. - Vol. 9, no. 10. - P. 8298-8305. - DOI: 10.1109/lra.2024.3441495. -URL: http://dx.doi.org/10.1109/lra.2024.3441495.
92. Rosinol A., Gupta A., Abate M., Shi J., Carlone L. 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans // Robotics: Science and Systems XVI. —Robotics: Science, Systems Foundation, 07/2020. — (RSS2020). — DOI: 10.15607/rss.2020.xvi.079. — URL: http: //dx.doi.org/10.15607/rss.2020.xvi.079.
93. Bavle H., Sanchez-Lopez J. L., Shaheer M., Civera J., Voos H. S-Graphs+: Real-Time Localization and Mapping Leveraging Hierarchical Representations // IEEE Robotics and Automation Letters. — 2023. — Aug. — Vol. 8, no. 8. -P. 4927—4934. -DOI: 10.1109/lra.2023.3290512. -URL: http://dx.doi.org/10.1109/lra.2023.3290512.
94. Hughes N., Chang Y., Hu S., Talak R., Abdulhai R., Strader J., Carlone L. Foundations of spatial perception for robotics: Hierarchical representations and real-time systems // The International Journal of Robotics Research. — 2024. — Feb. — Vol. 43, no. 10. — P. 1457—1505. — DOI: 10 .1177/ 02783649241229725. - URL: http://dx.doi.org/10.1177/02783649241229725.
95. Chen D. Z., Chang A. X., Nießner M. ScanRefer: 3D Object Localization in RGB-D Scans Using Natural Language // Computer Vision - ECCV 2020. — Springer International Publishing, 2020. — P. 202—221. — DOI: 10.1007/978-3-030-58565-5_13. — URL: http://dx.doi.org/10.1007/978-3-030-58565-5_13.
96. Achlioptas P, Abdelreheem A., Xia F., Elhoseiny M., Guibas L. J. ReferIt3D: Neural Listeners for Fine-Grained 3D Object Identification in Real-World Scenes // 16th European Conference on Computer Vision (ECCV). -- 2020. -P. 422-440.
97. Majumdar A. [et al.]. OpenEQA: Embodied Question Answering in the Era of Foundation Models // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. — P. 16488—16498. — DOI: 10.1109/cvpr52733.2024.01560. — URL: http://dx.doi.org/10.1109/cvpr52733. 2024.01560.
98. Zhu C., Wang T., Zhang W., Chen K., LiuX. ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities // Computer Vision - ECCV 2024. -Springer Nature Switzerland, 10/2024. — P. 151—168. — DOI: 10.1007/978-3-031-73242-3_9. -URL: http://dx.doi.org/10.1007/978-3-031-73242-3_9.
99. Li Y., Wang Z., Liang W. R2G: Reasoning to ground in 3D scenes // Pattern Recognition. —2025. — Dec. — Vol. 168. — P. 111728. — DOI: 10.1016/j. patcog.2025.111728. - URL: http://dx.doi.org/10.1016/j.patcog.2025.111728.
100. Zhang Y., Gong Z., Chang A. X. Multi3DRefer: Grounding Text Description to Multiple 3D Objects // 2023 IEEE/CVF International Conference on Computer Vision (ICCV). - IEEE, 10/2023. - P. 15179-15179. -DOI: 10.1109/ iccv51070.2023.01397. — URL: http://dx.doi.org/10.1109/iccv51070.2023. 01397.
101. Zhao L., Cai D., Sheng L., Xu D. 3DVG-Transformer: Relation Modeling for Visual Grounding on Point Clouds // 2021 IEEE/CVF International Conference on Computer Vision (ICCV). — IEEE, 10/2021. — P. 2908—2917. —DOI: 10.1109/iccv48922.2021.00292. - URL: http://dx.doi.org/10.1109/iccv48922. 2021.00292.
102. Hsu J.., Mao J.., Wu J. NS3D: Neuro-Symbolic Grounding of 3D Objects and Relations // 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2023. — P. 2614—2623. — DOI: 10.1109/ cvpr52729.2023.00257. — URL: http://dx.doi.org/10. 1109/cvpr52729.2023. 00257.
103. Chen W., Hu S., Talak R., Carlone L. Leveraging Large (Visual) Language Models for Robot 3D Scene Understanding. — 2023. — arXiv: 2209.05629 [cs.RO]. — URL: https://arxiv. org/abs/2209. 05629 ; (Дата обращения: 12.12.2023).
104. Kim K., Yoon K., Jeon J., In Y, Moon J.., Kim D., Park C. LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. - P. 28306-28316. - DOI: 10 . 1109/cvpr52733 . 2024 . 02674. — URL: http://dx.doi.org/10.1109/cvpr52733.2024.02674.
105. Huang S., Dong L., Wang W., Hao Y., Singhal S., Ma S., Lv T., Cui L., Mohammed O. K., Patra B., [et al.]. Language is not all you need: Aligning perception with language models // Advances in Neural Information Processing Systems. —2024. — Vol. 36. — URL: https://dl.acm.org/doi/10.5555/3666122. 3669277.
106. Yuan Z., Ren J., Feng C.-M., Zhao H., Cui S., Li Z. Visual Programming for Zero-Shot Open-Vocabulary 3D Visual Grounding // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. - P. 20623-20633. - DOI: 10.1109/cvpr52733.2024.01949. -URL: http://dx.doi.org/10.1109/cvpr52733.2024.01949.
107. Yang J., Chen X., Qian S., Madaan N., Iyengar M., Fouhey D. F., Chai J. LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent // 2024 IEEE International Conference on Robotics and Automation (ICRA). — IEEE, 05/2024. — P. 7694—7701. — DOI: 10.1109/ icra57147.2024.10610443. — URL: http://dx.doi.org/10.1109/icra57147.2024. 10610443.
108. Chen S., Guhur P.-L., Tapaswi M., Schmid C., Laptev I. Language conditioned spatial relation reasoning for 3d object grounding // Advances in neural information processing systems. — 2022. — Vol. 35. — P. 20522—20535. — URL: https://dl.acm.org/doi/10.5555/3600270.3601762.
109. Chen Y., Yang S., Huang H., Wang T., Xu R., Lyu R., Lin D., Pang J. Grounded 3D-LLM with Referent Tokens. —2024. — arXiv: 2405.10370 [cs.CV]. — URL: https://arxiv.org/abs/2405.10370 ; (Дата обращения: 20.11.2024).
110. Miyanishi T., AzumaD., Kurita S., KawanabeM. Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans // 2024 International Conference on 3D Vision (3DV). — IEEE, 03/2024. — P. 717—727. — DOI: 10.1109/ 3dv62453.2024.00033. -URL: http://dx.doi.org/10.1109/3dv62453.2024. 00033.
111. Geiger A., Lenz P., Urtasun R. Are we ready for autonomous driving? The KITTI vision benchmark suite //2012 IEEE Conference on Computer Vision and Pattern Recognition. — IEEE, 06/2012. — P. 3354—3361. — DOI: 10.1109/cvpr.2012. 6248074. — URL: http://dx.doi.org/10.1109/cvpr.2012.6248074.
112. Adaloglou N. Understanding the receptive field of deep convolutional networks // AI Summer. —2020. — URL: https://theaisummer.com/receptive-field/; (Дата обращения: 09.09.2022).
113. Zhou T., Brown M., Snavely N., Lowe D. G. Unsupervised Learning of Depth and Ego-Motion from Video //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 07/2017. — P. 6612—6619. — DOI: 10.1109/cvpr.2017.700. — URL: http://dx.doi.org/10.1109/cvpr.2017.700.
114. Araujo A., Norris W., Sim J. Computing Receptive Fields of Convolutional Neural Networks // Distill. — 2019. — Nov. — Vol. 4, no. 11. — DOI: 10. 23915/distill.00021. — URL: http://dx.doi.org/10.23915/distill.00021.
115. Dai J.., Qi H., Xiong Y, Li Y., Zhang G., Hu H., Wei Y Deformable Convolutional Networks // 2017 IEEE International Conference on Computer Vision (ICCV). — IEEE, 10/2017. — P. 764—773. — DOI: 10.1109/iccv.2017. 89. — URL: http://dx.doi.org/10.1109/iccv.2017.89.
116. Zhu X., Hu H., Lin S., Dai J. Deformable ConvNets V2: More Deformable, Better Results // 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2019. — P. 9300—9308. — DOI: 10.1109/ cvpr.2019.00953. — URL: http://dx.doi.org/10.1109/cvpr.2019.00953.
117. Eigen D., Puhrsch C., Fergus R. Depth map prediction from a single image using a multi-scale deep network//. Vol. 27. —2014. — URL: https://dl.acm.org/doi/ 10.5555/2969033.2969091.
118. Liu F., Shen C., Lin G., Reid I. Learning Depth from Single Monocular Images Using Deep Convolutional Neural Fields // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2016. — Oct. — Vol. 38, no. 10. — P. 2024—2039. —DOI: 10.1109/tpami.2015.2505283. —URL: http://dx.doi. org/10.1109/tpami.2015.2505283.
119. Mur-Artal R., Montiel J. M. M., Tardos J. D. ORB-SLAM: A Versatile and Accurate Monocular SLAM System // IEEE Transactions on Robotics. — 2015. - Oct.-Vol. 31, no. 5. - P. 1147-1163. - DOI: 10.1109/tro.2015. 2463671. — URL: http://dx.doi.org/10.1109/tro.2015.2463671.
120. Linok S., Yudin D. Influence of neural network receptive field on monocular depth and ego-motion estimation // Optical Memory and Neural Networks. — 2023. - Vol. 32, Suppl 2. - S206-S213.
121. Zhang C., Han D., Zheng S., Choi J.., Kim T.-H., Hong C. S. MobileSAMv2: Faster Segment Anything to Everything. — 2023. — arXiv: 2312 . 09579 [cs.CV]. — URL: https://arxiv. org/abs/2312. 09579 ; (Дата обращения: 18.12.2023).
122. Ester M., Kriegel H.-P., Sander J., Xu X. A density-based algorithm for discovering clusters in large spatial databases with noise // Proceedings of the Second International Conference on Knowledge Discovery and Data Mining. — Portland, Oregon : AAAI Press, 1996. — P. 226—231. — (KDD'96). — URL: https://dl.acm.org/doi/10.5555/3001460.3001507.
123. Oquab M. [et al.]. DINOv2: Learning Robust Visual Features without Supervision. — 2024. — arXiv: 2304.07193 [cs.CV]. —URL: https:// arxiv.org/abs/2304.07193 ; (Дата обращения: 05.03.2024).
124. Darcet T., Oquab M., Mairal J., Bojanowski P. Vision Transformers Need Registers. —2024. — arXiv: 2309.16588 [cs.CV]. — URL: https://arxiv.org/ abs/2309.16588 ; (Дата обращения: 16.06.2024).
125. YouH., ZhangH., Gan Z., DuX., ZhangB., WangZ., CaoL., ChangS.-F., Yang Y. Ferret: Refer and Ground Anything Anywhere at Any Granularity. — 2023. — arXiv: 2310.07704 [cs.CV]. —URL: https://arxiv.org/abs/2310.07704; (Дата обращения: 13.10.2023).
126. CaiZ. [etal.]. InternLM2 Technical Report. —2024. — arXiv: 2403.17297 [cs.CL]. — URL: https://arxiv. org/abs/2403. 17297 ; (Дата обращения: 29.05.2024).
127. IlharcoG. [etal.]. OpenCLIP. — Version 0.1. —07/2021. — DOI: 10.5281/ zenodo.5143773. — URL: https://doi.org/10.5281/zenodo.5143773.
128. Straub /.[et al.]. The Replica Dataset: A Digital Replica of Indoor Spaces. — 2019. — arXiv: 1906.05797 [cs.CV]. — URL: https://arxiv.org/abs/1906. 05797 ; (Дата обращения: 22.07.2023).
129. Dai A., Chang A. X., Savva M., Halber M., Funkhouser T., Niessner M. ScanNet: Richly-Annotated 3D Reconstructions of Indoor Scenes //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 07/2017. -P. 2432-2443. -DOI: 10.1109/cvpr.2017.261. -URL: http: //dx.doi.org/10.1109/cvpr.2017.261.
130. Yamazaki K., Hanyu T., Vo K., Pham T., Tran M., Doretto G., Nguyen A., Le N.Open-Fusion: Real-time Open-Vocabulary 3D Mapping and Queryable Scene Representation // 2024 IEEE International Conference on Robotics and Automation (ICRA). — IEEE, 05/2024. — P. 9411—9417. — DOI: 10.1109/ icra57147.2024.10610193. — URL: http://dx.doi.org/10.1109/icra57147.2024. 10610193.
131. Campos C., Elvira R., Rodriguez J. J. G., M. Montiel J. M., D. Tardos J. ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual-Inertial, and Multimap SLAM // IEEE Transactions on Robotics. — 2021. — Dec. — Vol. 37, no. 6. —P. 1874—1890. —DOI: 10.1109/tro.2021.3075644. —URL: http://dx.doi.org/10.1109/tro.2021.3075644.
132. Li J., Wang P., Xiong P., Cai T., Yan Z., Yang L., Liu J., Fan H., Liu S. Practical Stereo Matching via Cascaded Recurrent Network with Adaptive Correlation // 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). - IEEE, 06/2022. - P. 16242-16251. - DOI: 10.1109/cvpr52688. 2022.01578. — URL: http://dx.doi.org/10.1109/cvpr52688.2022.01578.
133. Otsu N. A Threshold Selection Method from Gray-Level Histograms // IEEE Transactions on Systems, Man, and Cybernetics. — 1979. — Jan. — Vol. 9, no. 1. — P. 62—66. — DOI: 10.1109/tsmc. 1979.4310076. — URL: http: //dx.doi.org/10.1109/tsmc.1979.4310076.
134. Kornilov A. S., Safonov I. V. An Overview of Watershed Algorithm Implementations in Open Source Libraries // Journal of Imaging. — 2018. — Oct. — Vol. 4, no. 10. — P. 123. — DOI: 10.3390/jimaging4100123. — URL: http://dx.doi.org/10.3390/jimaging4100123.
135. Zhang Y. [et al.]. Recognize Anything: A Strong Image Tagging Model // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). - IEEE, 06/2024. - P. 1724-1732. - DOI: 10.1109/cvprw63382. 2024.00179. — URL: http://dx.doi.org/10.1109/cvprw63382.2024.00179.
136. Cheng T., Song L., Ge Y., Liu W., Wang X., Shan Y. YOLO-World: Real-Time Open-Vocabulary Object Detection // 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2024. — P. 16901-16911. -DOI: 10.1109/cvpr52733.2024.01599. -URL: http: //dx.doi.org/10.1109/cvpr52733.2024.01599.
137. Yadav K. [et al.]. Habitat-Matterport 3D Semantics Dataset // 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2023. -P. 4927-4936. -DOI: 10.1109/cvpr52729.2023.00477. -URL: http://dx.doi.org/10.1109/cvpr52729.2023.00477.
138. Hurst A., Lerer A., Goucher A. P., Perelman A., Ramesh A., Clark A., Ostrow A., Welihinda A., Hayes A., Radford A., [et al.]. Gpt-4o system card // arXiv preprint arXiv:2410.21276. —2024. — arXiv: 2410.21276 [cs.CL]. — URL: https: //arxiv.org/abs/2410.21276 ; (Дата обращения: 27.08.2024).
139. Warner B. [et al.]. Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference // Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). — Association for Computational Linguistics, 2025. — P. 2526—2547. — DOI: 10.18653/v1/ 2025.acl-long.127. — URL: http://dx.doi.org/10.18653/v1/2025.acl-long.127.
140. Shi Y, Huang Z., Feng S., Zhong H., Wang W., Sun Y. Masked Label Prediction: Unified Message Passing Model for Semi-Supervised Classification // Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence. — International Joint Conferences on Artificial Intelligence Organization, 08/2021. —P. 1548—1554. — (IJCAI-2021). —DOI: 10.24963/ijcai.2021/214. - URL: http://dx.doi.org/10.24963/ijcai.2021/214.
141. Su J., AhmedM., LuY., Pan S., Bo W., Liu Y. RoFormer: Enhanced transformer with Rotary Position Embedding // Neurocomputing. — 2024. — Feb. — Vol.568. —P. 127063. —DOI: 10.1016/j .neucom. 2023. 127063. —URL: http://dx.doi.org/10.1016/j.neucom.2023.127063.
142. WuB., YuS., ChenZ., TenenbaumJ. B., Gan C. STAR: ABenchmarkfor Situated Reasoning in Real-World Videos. — 2024. — arXiv: 2405.09711 [cs.AI].— URL: https://arxiv.org/abs/2405.09711 ; (Дата обращения: 18.06.2024).
143. Grunde-McLaughlin M., Krishna R., Agrawala M. AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning // 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2021. — P. 11282-11292. -DOI: 10.1109/cvpr46437.2021.01113. - URL: http: //dx.doi.org/10.1109/cvpr46437.2021.01113.
144. Grunde-McLaughlin M., Krishna R., Agrawala M. AGQA 2.0: An Updated Benchmark for Compositional Spatio-Temporal Reasoning. — 2022. — arXiv: 2204.06105 [cs.CV]. —URL: https://arxiv.org/abs/2204.06105 ; (Дата обращения: 15.08.2024).
145. Hu E. J.., Shen Y., Wallis P., Allen-Zhu Z., Li Y., Wang S., Wang L., Chen W., [et al.]. Lora: Low-rank adaptation of large language models. // ICLR. —
2022. — Vol. 1, no. 2. — P. 3.
146. Dubey A., Jauhri A., Pandey A., Kadian A., Al-Dahle A., Letman A., Mathur A., Schelten A., Yang A., Fan A., [et al.]. The llama 3 herd of models. — 2024. — arXiv: 2407.21783 [cs.AI]. —URL: https://arxiv.org/abs/2407.21783; (Дата обращения: 27.11.2024).
147. Cong W., Zhang S., Kang J., Yuan B., WuH., ZhouX., Tong H., Mahdavi M. Do We Really Need Complicated Model Architectures For Temporal Networks? —
2023. — arXiv: 2302.11636 [cs.LG]. —URL: https://arxiv.org/abs/2302. 11636 ; (Дата обращения: 25.03.2023).
148. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser L., Polosukhin I. Attention is all you need // Advances in neural information processing systems. — Long Beach, California, USA, 2017. — Vol. 30. -P. 6000-6010. — (NIPS'17). - URL: https://dl.acm.org/doi/ 10.5555/3295222.3295349.
149. Qiu H., Gao M., Qian L., Pan K., Yu Q., Li J., Wang W., Tang S., Zhuang Y., Chua T.-S. STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training // 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2025. — P. 3284-3294. - DOI: 10 . 1109/cvpr52734 . 2025 . 00312. -URL: http: //dx.doi.org/10.1109/cvpr52734.2025.00312.
150. Mogrovejo D., Solorio T. Question-Instructed Visual Descriptions for Zero-Shot Video Answering // Findings of the Association for Computational Linguistics ACL 2024. — Association for Computational Linguistics, 2024. — P. 9329—9339. — DOI: 10.18653/v1/2024.findings-acl.555. — URL: http: //dx.doi.org/10.18653/v1/2024.findings-acl.555.
151. Gao D., Zhou L., Ji L., Zhu L., Yang Y., Shou M. Z. MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering // 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2023. - P. 14773-14783. -DOI: 10 . 1109/cvpr52729 . 2023 . 01419. - URL: http://dx.doi.org/10.1109/cvpr52729.2023.01419.
152. YuS., Cho J., Yadav P., Bansal M. Self-chained image-language model for video localization and question answering //. Vol. 36. — New Orleans, LA, USA : Curran Associates Inc., 2023. — P. 76749—76771. — (NIPS '23).
153. Wang X., Liang J., Wang C.-K., Deng K., Lou Y., Lin M. C., Yang S. ViLA: Efficient Video-Language Alignment for Video Question Answering // Computer Vision - ECCV 2024. — Springer Nature Switzerland, 10/2024. — P. 186-204. -DOI: 10.1007/978-3-031-73033-7_11. -URL: http: //dx.doi.org/10.1007/978-3-031-73033-7_11.
154. Liang J., MengX., Wang Y., LiuC., Liu Q., Zhao D. End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling. — 2024. — arXiv: 2407.15047 [cs.CV]. — URL: https://arxiv.org/abs/2407. 15047 ; (Дата обращения: 29.07.2024).
155. Bhattacharyya A., Panchal S., Lee M., Pourreza R., Madan P, Memisevic R. Look, Remember and Reason: Grounded reasoning in videos with language models. —2024. — arXiv: 2306.17778 [cs.CV]. — URL: https://arxiv. org/abs/2306.17778 ; (Дата обращения: 26.01.2024).
156. Bai Z., Wang R., Chen X. Glance and focus: Memory prompting for multi-event video question answering // Advances in Neural Information Processing Systems. —2023. — Vol. 36. — P. 34247—34259. — URL: https://dl.acm. org/doi/10.5555/3666122.3667606.
157. Jaiswal S., Roy D., Fernando B., Tan C. Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios // Advances in Neural Information Processing Systems. —2025. — Vol. 37. — P. 137965—137998. — URL: https://dl.acm.org/doi/10.5555/3737916.3742297.
158. Wang Y., Wang Y., Wu P., Liang J., Zhao D., Liu Y., Zheng Z. Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge // Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. — Association for Computational Linguistics, 2024. — P. 9972—9987. — DOI: 10.18653/v1/2024.emnlp-main.556. — URL: http: //dx.doi.org/10.18653/v1/2024.emnlp-main.556.
159. Lee H.-Y., Su H.-T., Tsai B.-C., Wu T.-H., Yeh J.-F., Hsu W. H. Learning Fine-Grained Visual Understanding for Video Question Answering via Decoupling Spatial-Temporal Modeling. — 2022. — arXiv: 2210 . 03941 [cs.CV]. — URL: https://arxiv. org/abs/2210.03941 ; (Дата обращения: 10.10.2023).
160. Liu Z. [et al.]. NVILA: Efficient Frontier Visual Language Models // 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 06/2025. - P. 4122-4134. - DOI: 10.1109/cvpr52734.2025.00390. -URL: http://dx.doi.org/10.1109/cvpr52734.2025.00390.
161. Li Z., Chai Y, Zhuo T.Y., QuL., Haffari G., Li F, JiD., Tran Q. H. FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph Parsing // Findings of the Association for Computational Linguistics: ACL 2023. — Association for Computational Linguistics, 2023. —P. 6377—6390. —DOI: 10.18653/v1/2023. findings-acl.398. —URL: http://dx.doi.org/10.18653/v1/2023.findings-acl.398.
162. Achiam J., Adler S., Agarwal S., AhmadL., AkkayaI., Aleman F. L., AlmeidaD., Altenschmidt J., Altman S., Anadkat S., [et al.]. Gpt-4 technical report. — 2024. — arXiv: 2303.08774 [cs.CL]. — URL: https://arxiv.org/abs/2303. 08774 ; (Дата обращения: 08.04.2024).
163. He X., Tian Y, Sun Y, Chawla N., Laurent T, LeCun Y, Bresson X., Hooi B. G-retriever: Retrieval-augmented generation for textual graph understanding and question answering // Advances in Neural Information Processing Systems. — 2025. — Vol. 37. — P. 132876—132907. — URL: https://dl.acm.org/doi/10.5555/3737916.3742140.
164. Bienstock D., Goemans M. X., Simchi-Levi D., Williamson D. A note on the prize collecting traveling salesman problem // Mathematical Programming. — 1993. — Mar. — Vol. 59, no. 1—3. — P. 413—420. — DOI: 10 . 1007/ bf01581256. — URL: http://dx.doi.org/10.1007/bf01581256.
Публикации автора по теме диссертации
165. Pushkarev D., Mironov K., Basharov I., Kichik M., Linok S., Yudin D., Alhaddad M., Panov A. Door Opening Strategy for Mobile Manipulator with Constrained Configuration // Lecture Notes in Computer Science. — 2022. — P. 130-142. -DOI: 10. 1007/978-3-031 -23609-9_ 12. -URL: https: //doi.org/10.1007/978-3-031-23609-9_12.
166. Mironov K. V., Yudin D. A., Alhaddad M., Makarov D. A., Pushkarev D. S., Linok S. A., Belkin I. V., Krishtopik A. S., Golovin V. A., Yakovlev K. S., Panov A. I. STRL Robotics: Intelligent Control for Robotic Platform in Human-Oriented Environment // Scientific and Technical Information Processing. —2024. —Dec. —Vol. 51, no. 5. —P. 437-451. —DOI: 10.3103/ S0147688224700357. - URL: https://doi.org/10.3103/S0147688224700357.
167. Linok S. A., Yudin D. A. Influence of Neural Network Receptive Field on Monocular Depth and Ego-Motion Estimation // Optical Memory and Neural Networks. —2023. — Dec. — Vol. 32, no. 2. — S206—S213. — DOI: 10.3103/ S1060992X23060103. - URL: https://doi.org/10.3103/S1060992X23060103.
168. Linok S., Zemskova T., Ladanova S., Titkov R., Yudin D., Monastyrny M., Valenkov A. Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph// 2025 IEEE International Conference on Robotics and Automation (ICRA). -2025. -P. 13582-13589. - DOI: 10.1109/ICRA55743.2025. 11128059. - URL: https://doi.org/10.1109/ICRA55743.2025.11128059.
169. Linok S., Nuamov G. Open-Vocabulary Indoor Object Grounding with 3D Hierarchical Scene Graph // Optical Memory and Neural Networks. — 2025. — Vol. 34, no. 3. -S323-S333. -DOI: 10.3103/S1060992X25600673. -URL: https://doi.org/10.3103/S1060992X25600673.
170. Линок С., Семенов В., Трунова А., Буличев О., Юдин Д., Панов А. Свидетельство о государственной регистрации программы для ЭВМ «Программа для кодирования последовательности текстовых графов сцены и рассуждения по ней с использованием большой языковой модели» №RU2025668511 от 15.07.2025. —2025.
Список рисунков
1. Рисунок 1.1 — Пример распознавания инстансов кнопок лифта на сенсорных данных робота Husky в натурном эксперименте..............................38
2. Рисунок 1.2 — Пример распознавания ручки двери по сенсорным данным робота Husky в натурном эксперименте......................................39
3. Рисунок 1.3 — Общая задача построения мультимодальной карты помещения по последовательности RGB-D кадров, рассмотренная в диссертации.........50
4. Рисунок 2.1 — Схематичное изображение метода проекции пикселей с одного кадра на последующий в последовательности изображений с применением предсказаний нейросетевых модулей предсказания по входному изображению глубины DepthNet и изменения положения центра камеры PoseNet............60
5. Рисунок 2.2 — Схематичное изображение архитектур модели ERF-SfMLearner, состоящей из предложенных нейросетевых модулей предсказания по входному изображению глубины ERFDepthNet (DepthNet) и изменения положения центра камеры ERFPoseNet (PoseNet)................62
6. Рисунок 2.3 — Архитектуры сетей для ERFPoseNet. (a) Базовый PoseNet. (b-d) Различные варианты ERFPoseNet с расширенным рецептивным полем........63
7. Рисунок 2.4 — Различные архитектуры энкодера ERFDepthNet...........64
8. Рисунок 2.5 — Рецептивные поля вариантов архитектур ERFPoseNet......65
9. Рисунок 3.1 — Схема алгоритма построения объектно-ориентированной мультимодальной карты статического пространства по последовательности RGB-D кадров в рамках метода BBQ.........................................75
10. Рисунок 3.2 — Схема алгоритма извлечения явных и неявных семантических текстовых эмбедингов объекто-ориентированной карты метода BBQ.......... 77
11. Рисунок 3.3 — Качественное сравнение вариаций DINO дескрипторов на данных ScanNet.............................................................79
12. Рисунок 3.4 — Качественное сравнение вариаций DINO дескрипторов на данных Replica.............................................................80
13. Рисунок 3.5 — Качественные примеры сравнения 3D сегментации различных методов мультимодальных карт на наборе данных Replica.........84
14. Рисунок 4.1
— Схема метода построения карты OVIGo-3DHSG
88
15. Рисунок 5.1 — Схема метода DyGEnc..................................94
16. Рисунок 5.2 — Схема архитектуры энкодера DyGEnc....................95
17. Рисунок 5.3 — Пример визуализации кросс-внимания из энкодера последовательностей Q-Former на бенчмарке STAR.........................104
18. Рисунок 5.4 — Иллюстрация экспериментальной установки для робототехнических испытаний — слева: мобильная платформа Husky с манипулятором UR5, оснащённая для выполнения задачи MOVE-AND-PICK на основе вывода DyGEnc; справа — общий вид сцен из бенчмарка DRobot.....107
Список таблиц
1. Таблица 1 — Абсолютная ошибка траектории (ATE) и ошибка вращения (RE) на подвыборке KITTI Odometry..............................................67
2. Таблица 2 — Результаты оценки глубины на разбиении Eigen KITTI: архитектуры ERFDepthNet и PoseNet........................................69
3. Таблица 3 — Результаты оценки глубины на подвыборке Eigen KITTI: архитектуры DepthNet и варианты PoseNet...................................70
4. Таблица 4 — Результаты сравнения методов предсказания глубины кадра по последовательности изображений на наборе данных KITTI (Eigen)............73
5. Таблица 5 — Результаты сравнения методов предсказания изменения позы (средняя ошибка позы, в метрах) по последовательности изображений на наборе данных KITTI (Odometry)...................................................73
6. Таблица 6 — Сравнение параметров различных вариантов DINO дескрипторов............................................................... 79
7. Таблица 7 — Сравнение метрик между визуально-языковыми LLM в задаче генерации подписей к изображениям........................................81
8. Таблица 8 — Сравнение моделей CLIP для решения задачи open-vocabluary сегментации по запросам на данных Replica.................................83
9. Таблица 9 — Сравнение методов построения мультимодальных карт для задачи 3D сегментации по открытому словарю............................... 84
10. Таблица 10 — Количественное сравнение результатов нахождения объектов на данных HM3DSem.......................................................92
11. Таблица 11 — Количественное сравнение результатов нахождения объектов по сложным запросам между методом HOV-SG и предложенным OVIGo-3DHSG на данных HM3DSem.......................................................93
12. Таблица 12 — Сравнительный анализ вариантов временного позиционного кодирования на данных валидационной выборки STAR......................100
13. Таблица 13 — Сравнительный анализ вариантов количества токенов Q-Former на данных валидационной выборки STAR.........................101
14. Таблица 14 — Сравнительный анализ компонентов DyGEnc на данных STAR.....................................................................102
15. Таблица 15 — Количественное сравнение на данных STAR (валидационная подвыборка)..............................................................103
16. Таблица 16 — Количественное сравнение на данных AGQA2.0 (тестовая выборка)..................................................................106
17. Таблица 17 — Сравнительный анализ методов построения мгновенного графа сцена на данных DRobot............................................. 108
Приложение А
Государственная регистрация программы для ЭВМ "Программа для кодирования последовательности текстовых графов сцены и рассуждения по ней с использованием большой языковой модели"
теотшйеждш Фвдцрдшщш
ж жжжжж
ж ж ж
ж ж
ж ж ж
ж ж ж ж ж ж ж
ж ж
ж
ж
ж
СВИДЕТЕЛЬСТВО
о государственной регистрации программы для ЭВМ
№ 2025668511
жжжжжж ж ж ж ж ж ж ж ж ж ж ж ж ж ж
Программа для кодирования последовательности текстовых графов сцены и рассуждения по ней с использованием большой языковой модели
Правообладатель: федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт (национальный исследовательский университет)» (Ки)
Авторы: Линок Сергей Александрович (Яи), Семенов Вадим Романович (Яи), Трунова Анастасия Михайловна (Яи), Буличев Олег Викторович (Яи), Юдин Дмитрий Александрович (Яи)
Заявка № 2025667375
Дата поступления 18 ИЮНЯ 2025 Г. Дата государственной регистрации
в Реестре программ для ЭВМ 15 ЫЮЛЛ 2025 г.
Руководитель Федеральной службы по интеллектуальной собственности
„ /с/'" . документ подписан эНектроннои подписью
Сертификат 0692е7с1о630СМ5^^24СМ670Ьса2026 Владелец Зубов Юрий Сергеевич
Действителен с 10.07.2024 по 03.10.2025
Ю.С. Зубов
Ж Ж Ж Ж Ж Ж Ж
ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж
т ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж ж
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.