Разработка и исследование методов и алгоритмов распознавания места на основе последовательности мультимодальных данных тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Мелехин Александр Алексеевич
- Специальность ВАК РФ00.00.00
- Количество страниц 145
Оглавление диссертации кандидат наук Мелехин Александр Алексеевич
Введение
Глава 1. Анализ существующих методов распознавания места и постановка задачи
1.1 Теоретические основы распознавания места
1.1.1 Роль в робототехнических системах
1.1.2 Формальная постановка
1.1.3 Метрики оценки качества
1.1.4 Наборы данных
1.2 Исторический контекст и эволюция подходов
1.2.1 Истоки и терминология
1.2.2 Эра классических методов
1.2.3 Проблемы долгосрочной робастности и последовательные подходы
1.2.4 Переход к глубокому обучению
1.2.5 Развитие обучаемых методов и мультимодальных подходов
1.2.6 Формирование современной парадигмы
1.3 Классификация и анализ современных подходов
1.3.1 По типу используемых данных
1.3.2 По учету временной информации
1.3.3 По способу учета семантической информации
1.4 Особенности методов обучения в задаче распознавания места
1.4.1 Функции потерь
1.4.2 Специализированные техники обучения
1.5 Ограничения современных методов и постановка задач исследования
1.5.1 Ключевые проблемы современных методов
1.5.2 Обоснование направления исследования
1.5.3 Общая постановка задачи
1.5.4 Ограничения и допущения
1.5.5 Оценка достаточности метрик качества
1.5.6 Технические требования к разрабатываемым решениям
Глава 2. Разработка мультимодального нейросетевого метода распознавания места
на основе последовательности данных нескольких сенсоров
2.1 Мультисенсорный мультимодальный метод с использованием семантических
признаков
2.1.1 Мультимодальное расширение задачи распознавания места
2.1.2 Архитектура позднего слияния
2.1.3 Энкодеры модальностей
2.1.4 Стратегии агрегации векторных представлений данных
2.1.5 Обучение
2.1.6 Механизм обеспечения возможности выполнения кросс-модальных запросов
2.2 Модификация метода для интеграции в системы одновременной локализации и картографирования
2.2.1 Требования систем SLAM к модулям распознавания места
2.2.2 Архитектурные изменения и модификация модуля агрегации векторных представлений изображений
2.2.3 Стратегия мультимодального обучения
2.3 Метод учета временных последовательностей данных
2.3.1 Теоретическое обоснование и исследовательская гипотеза
2.3.2 Универсальный метод слияния пула кандидатов
2.3.3 Совместимость с существующими методами и сравнительный анализ
2.4 Выводы по главе
Глава 3. Программная реализация методов
3.1 Технологический стек и воспроизводимость
3.2 Реализация мультисенсорного мультимодального метода MSSPlace
3.3 Реализация метода учета временных последовательностей данных Candidate Pool Fusion
3.4 Библиотека OpenPlaceRecognition
3.4.1 Концепция и архитектурные принципы
3.4.2 Система поддержки мультимодальности
3.4.3 Варианты запуска библиотеки
3.4.4 Подсистемы обучения и оптимизации
3.4.5 Модули чтения данных
3.5 Выводы по главе
Глава 4. Разработка мультисенсорного мультимодального датасета для задачи
распознавания места
4.1 Техническая реализация сбора данных
4.1.1 Роботизированная платформа Clearpath Husky
4.1.2 Конфигурация мультисенсорной системы
4.1.3 Калибровка сенсорной системы и протокол записи данных
4.1.4 Процесс сбора данных
4.2 Предобработка данных
4.2.1 Генерация эталонных 6-DoF-поз робота
4.2.2 Организация данных и примеры содержимого
4.2.3 Аннотация данных
4.3 Общие характеристики
4.4 Выводы по главе
Глава 5. Проведение экспериментальных исследований
5.1 Экспериментальный анализ функций потерь
5.1.1 Условия эксперимента
5.1.2 Наборы данных и метрики оценки
5.1.3 Результаты на публичных наборах данных
5.1.4 Оценка обобщающей способности
5.2 Экспериментальная оценка мультисенсорного мультимодального метода MSSPlace
5.2.1 Параметры экспериментов
5.2.2 Анализ одномодальных конфигураций
5.2.3 Анализ мультимодальных конфигураций
5.2.4 Анализ механизма кросс-модальных запросов
5.2.5 Оценка робастности в сложных условиях
5.2.6 Качественный анализ
5.3 Экспериментальная оценка метода MSSPlace-G для интеграции в системы одновременной локализации и картографирования
5.3.1 Параметры экспериментов
5.3.2 Результаты и анализ
5.4 Экспериментальная оценка метода учета временных последовательностей данных Candidate Pool Fusion
5.4.1 Параметры экспериментов
5.4.2 Результаты и анализ
5.5 Качественная оценка методов на мобильной робототехнической платформе
5.5.1 Параметры экспериментов
5.5.2 Результаты и анализ
Заключение
Словарь терминов
Список рисунков
Список таблиц
Список литературы
Приложение А. Государственная регистрация программы для ЭВМ «Программа для нейросетевого распознавания места с использованием последовательностей сенсорных данных»
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Разработка и исследование алгоритмов построения мультимодальных карт по последовательности неразмеченных изображений RGB-D камер интеллектуальных агентов2025 год, кандидат наук Линок Сергей Александрович
Разработка и исследование метода реконструкции изображений глубины для использования в автономной навигации сельскохозяйственных роботизированных комплексов2025 год, кандидат наук Гапон Николай Валерьевич
Исследование и разработка методов и алгоритмов мультимодального обучения с подкреплением в сложных динамических средах2025 год, кандидат наук Воловикова Зоя Александровна
Разработка и исследование методов и алгоритмов автоматического обнаружения и отслеживания динамических объектов с восстановлением их 3D-моделей2024 год, кандидат наук Мурхиж Юшаа
Исследование мультимодальных алгоритмов биометрической идентификации на основе методов цифровой обработки речевых сигналов и изображений2022 год, кандидат наук Стефаниди Антон Федорович
Введение диссертации (часть автореферата) на тему «Разработка и исследование методов и алгоритмов распознавания места на основе последовательности мультимодальных данных»
Введение
Актуальность темы исследования. В последние годы наблюдается стремительное расширение парка автономных мобильных роботов, применяемых в логистике «последней мили», инспекционных работах, строительстве и сервисных приложениях умного города. Существенная часть их маршрутов проходит в условиях, где сигнал глобальных навигационных спутниковых систем (GNSS) отсутствует, существенно искажается эффектом городского каньона либо преднамеренно подменяется («спуфинг»). Потеря или деградация GNSS-сигнала приводит к неконтролируемому отклонению траектории и вынужденным остановкам платформ, что существенно сдерживает массовое внедрение автономных технологий. В связи с этим задача надёжной локализации без опоры на спутниковые сигналы выходит на первый план как для академического сообщества, так и для отраслевых регуляторов и разработчиков.
Остроту этой проблемы подтверждает недавний анализ Sherman et al. «Observations of GNSS Spoofing in Russia in 2023-2024», опубликованный в марте 2025 года, согласно которому за указанный период на территории РФ было зафиксировано 1520 случаев преднамеренной подмены GNSS-сигнала.
Отраслевой анализ, проведённый журналом «Вестник ГЛОНАСС», подчёркивает: «Сейчас можно увидеть распространение технологий, ориентированных на навигацию без ГНСС.» Параллельно с этим в 2024 году был принят ГОСТ Р 71886-2024, который устанавливает требуемую «метрическую точность» (не более 0,3 м для геодезических БАС) и предписывает обеспечивать её даже при полном отсутствии GNSS-сигнала.
Актуальность подтверждается и на международном уровне: в 2025 году одним из ключевых докладов (keynote) на крупнейшей международной конференции по робототехнике ICRA стал доклад «Visual Place Recognition: Navigating Without GPS Using Bio-Inspired Approaches».
В совокупности эти обстоятельства подтверждают актуальность разработки робастных мультимодальных решений, соответствующих строгим требованиям ГОСТ Р 71886-2024. Под робастностью здесь и далее понимается способность алгоритма сохранять стабильно высокое качество распознавания места при наличии следующих факторов:
- Искажения сенсорных данных — устойчивость к выбросам, шумам и кратковременным помехам;
- Изменения точки обзора — инвариантность к значительным изменениям ракурса наблюдения;
- Перцептивные вариации — нечувствительность к существенным изменениям внешнего вида среды, вызванным сменой времени суток, погодных условий и сезонными эффектами.
С учётом существующих в литературе подходов (Lowry et al. (2016), Garg et al. (2021) и Yin et al. (2025)) введём следующие определения: место — это фрагмент окружающей среды, который может быть распознан агентом по сенсорным данным при повторном посещении, демонстрируя устойчивость к изменениям ракурса наблюдения и условий среды в пределах функциональных требований системы; распознавание места — это задача поиска наиболее похожих фрагментов
окружающей среды в базе ранее посещенных локаций на основе сопоставления текущих сенсорных данных с сохраненными наблюдениями, возвращающая ранжированный список кандидатов с метриками близости.
Методы распознавания места являются ключевым элементом задачи автономной локализации в условиях отсутствия GNSS-сигнала, позволяя решать такие задачи, как обнаружение замыканий цикла и первичная локализация в методах SLAM, а также 6-DoF-локализация в составе иерархических систем. Большинство автономных робототехнических платформ оснащены сенсорами разных модальностей, в частности лидарами и камерами. Использование временных последовательностей данных таких сенсоров повышает устойчивость методов распознавания места к единичным выбросам и помехам, повышая информативность входящих данных и тем самым улучшая итоговое качество локализации.
Диссертация направлена на разработку робастного многомодального метода распознавания места, обеспечивающего повышение робастности, а также расширение применимости как в помещениях, так и на открытых пространствах в условиях отсутствия GNSS-сигнала.
Степень разработанности темы исследования. Число публикаций по распознаванию места значительно выросло в 2023-2025 гг., в том числе благодаря сериям работ, опубликованным исследователями Сколтеха и ИТМО.
Наиболее заметный прогресс обеспечили трансформерные архитектуры и предобучение на больших корпусах данных, что привело к приросту качества и повышению способности к обобщению на новые сцены. Вместе с тем зрелость области остаётся неоднородной: применение масштабных моделей к модальностям, отличным от изображений камер, ограничено; методы, использующие временные последовательности, изучены недостаточно; устойчивость алгоритмов в однотипных средах с малым числом уникальных признаков и их стабильная работа при переходе между помещениями и открытыми пространствами остаются нерешёнными.
Эмпирические исследования фиксируют эти ограничения: NocPlace (2024) показывает существенное снижение Recall@1 при ночной съёмке; THUD++ (2024) демонстрирует рост ошибки локализации в динамичных сценах и при неблагоприятных погодных условиях; обзорная статья «Place Recognition: A Comprehensive Review, Current Challenges and Future Direction» (2025) подчёркивает, что существующие модели пока не умеют надёжно обобщаться при переходе от помещений к открытым пространствам.
Таким образом, несмотря на прогресс, сохраняются нерешённые вопросы, прежде всего в части мультимодальных и последовательностных методов и обеспечения робастности в разнообразных условиях, что обосновывает постановку и выбор целей и задач настоящей диссертации.
Целью настоящего исследования является разработка мультисенсорных мультимодальных методов интеграции данных RGB-камер и лидаров для задачи распознавания места в различных городских средах — в помещениях и уличном пространстве — обеспечивающих повышение показателей качества распознавания и робастности алгоритмов.
Для достижения поставленной цели необходимо было решить следующие задачи:
1. Исследовать существующие методы распознавания места на основе данных RGB-камер и лидаров, включая мультисенсорные и мультимодальные методы, а также методы с
учетом временных последовательностей данных. В том числе провести анализ подходов к обучению нейросетевых алгоритмов распознавания места и исследовать влияние различных функций потерь на показатели качества этих алгоритмов.
2. Сформулировать требования к мультимодальному датасету для распознавания места в условиях отсутствия GNSS-сигнала; разработать методику сбора и предварительной подготовки данных.
3. Разработать мультисенсорный мультимодальный нейросетевой метод, использующий данные RGB-камер и лидаров для повышения качества распознавания места, а также для обеспечения возможности выполнения кросс-модальных запросов.
4. Разработать алгоритм агрегации временных последовательностей фреймов сенсорных данных для задачи распознавания места, обеспечивающий повышение качества и робастности по сравнению с использованием одиночных фреймов данных.
5. Осуществить программную реализацию разработанных методов и алгоритмов в библиотеке с открытым исходным кодом, обеспечить воспроизводимость полученных результатов.
6. Провести экспериментальную оценку предложенных методов на публичных датасетах, сравнить с современными методами распознавания места.
Научная новизна настоящего исследования состоит в получении следующих результатов:
1. Разработан оригинальный метод распознавания места MSSPlace с модульной нейросетевой архитектурой, выполняющий извлечение и объединение визуальных, лидарных и семантических признаков и поддерживающий кросс-модальные запросы; показано повышение точности за счёт семантики; вариация MSSPlace-G демонстрирует адаптацию к условиям помещений и интеграцию в систему топологического картографирования.
2. Представлен новый алгоритм агрегации последовательностей сенсорных данных Candidate Pool Fusion, устойчивый к шумам и кратковременным изменениям сцены.
3. Сформулирована методика сбора, кросс-модальной синхронизации и семантической аннотации мультимодальных данных, обеспечивающая воспроизводимую оценку алгоритмов; на основе методики сформирован и опубликован набор данных ITLP-Campus.
Практическая значимость настоящего исследования заключается в следующем:
1. Методы искусственного интеллекта:
- Разработанные методы MSSPlace и MSSPlace-G обладают модульной архитектурой, допускающей адаптацию под различные сенсорные конфигурации и условия эксплуатации.
- Алгоритм агрегации последовательностей сенсорных данных может быть использован как в прикладных, так и в исследовательских разработках.
- Представленная открытая библиотека OpenPlaceRecognition обеспечивает воспроизводимость экспериментов и облегчает интеграцию предложенных методов и алгоритмов в реальные робототехнические системы.
- Сформулированы прикладные рекомендации по выбору функций потерь, что позволяет принимать обоснованные инженерные решения в зависимости от объёма доступных данных и требований к вычислительной эффективности.
- Созданный датасет ITLP-Campus расширяет спектр сценариев тестирования и способствует более объективной оценке обобщающей способности алгоритмов распознавания места.
2. Учебный процесс: разработанные методы и алгоритмы могут быть применены для изучения студентами современных методов искусственного интеллекта, связанных с компьютерным зрением.
3. Индустриальные приложения: разработанные методы и алгоритмы могут использоваться в составе систем локализации автономных платформ (включая наземных роботов и беспилотные автомобили) и систем навигации в городской среде, которые разрабатываются ведущими технологическими компаниями, в том числе Центром робототехники Сбера.
Методология и методы исследования. При разработке алгоритмов применялись методы машинного обучения, оптимизации и статистического анализа. Каждый новый компонент оценивался в рамках методологии постепенного улучшения.
Эффективность решений проверялась с помощью численных экспериментов на крупных и разнообразных наборах реальных сенсорных данных. Для обеспечения воспроизводимости результатов начальные состояния генераторов случайных чисел устанавливались фиксированными.
Программная реализация выполнялась на языке Python 3 с использованием библиотеки PyTorch. В качестве метода оптимизации применялся стохастический градиентный спуск с адаптивной оценкой моментов (Adam).
Эксперименты проводились в изолированной среде с использованием контейнерной технологии Docker, что позволяло обеспечить воспроизводимость вычислений на различных аппаратных платформах.
Конфигурация алгоритмов и перебор гиперпараметров осуществлялись с помощью системы Hydra. Код проекта хранился в системе управления версиями Git, а для отслеживания изменений в данных и экспериментах применялась система DVC. Для регистрации хода экспериментов и визуального контроля метрик использовалась библиотека WandB.
Основные положения, выносимые на защиту:
1. Оригинальный нейросетевой метод MSSPlace с модульной архитектурой для мультисенсорного мультимодального распознавания места по данным камер и лидаров, отличающийся механизмом извлечения семантических признаков, поздним объединением модальностей, выполнением кросс-модальных запросов, обеспечивающий повышение надёжности локализации, устойчивость к сенсорным помехам и гибкую адаптацию к различным конфигурациям робототехнических платформ. Метод реализован в составе открытой программной библиотеки OpenPlaceRecognition.
2. Оригинальный алгоритм агрегации последовательностей данных Candidate Pool Fusion, позволяющий повысить качество распознавания места в сравнении с использованием одиночных фреймов данных. Алгоритм реализован в составе открытой программной библиотеки OpenPlaceRecognition.
3. Методика сбора, кросс-модальной синхронизации и семантической аннотации последовательностей мультимодальных данных для объективной оценки методов распознавания места при недоступности сигналов GNSS; методика охватывает сцены в помещениях и на открытом воздухе, учитывает суточные и сезонные изменения и задаёт сценарно-стратифицированные сплиты, обеспечивая воспроизводимую оценку обобщающей способности алгоритмов и анализ источников ошибок; по данной методике сформирован и опубликован набор ITLP-Campus.
Достоверность полученных результатов подтверждается проведением численных экспериментов. Полученные данные не противоречат результатам, ранее опубликованным другими исследователями, и находятся в соответствии с текущими научными представлениями в области. Для всех разработанных алгоритмов приведены подробные описания, указаны используемые гиперпараметры, а также опубликованы параметры обученных моделей. Программные реализации методов размещены в открытом доступе, что обеспечивает воспроизводимость.
Апробация работы. Основные результаты работы докладывались на:
- Международная объединенная конференция по нейронным сетям (IJCNN 2022), Падуя, Италия.
- 65-й Всероссийской научной конференции МФТИ, 2023 г., Долгопрудный, Россия.
- 7-й Международной научной конференции "Intelligent Information Technologies for Industry" (IITI 2023), Санкт-Петербург, Россия.
- 66-й Всероссийской научной конференции МФТИ, 2024 г., Долгопрудный, Россия.
- 8-й Международной научной конференции "Intelligent Information Technologies for Industry" (IITI 2024), Харбин, Китай.
- Семинарах Центра когнитивного моделирования МФТИ, 2022-2024 гг. Полученные результаты и знания использовались в преподавании курсов по искусственному интеллекту:
- Курс "Методы искусственного интеллекта в анализе данных" (МФТИ, 2022), разработка и проведение практических занятий.
- Курс "Компьютерное зрение" (МФТИ, 2023, 2024, 2025), разработка и проведение практических занятий, разработка и проверка домашних практических заданий.
Публикации. Основные результаты по теме диссертации изложены в 5 печатных изданиях, 2 из которых изданы в журналах списка К1, 3 — в тезисах докладов. Зарегистрирована 1 программа для ЭВМ.
Личный вклад. В статье [1] автор провёл эксперименты с базовыми методами распознавания места; полученные результаты использовались в дальнейших экспериментах соавторов по ре-ранжированию. В статье [2] автор сформулировал постановку задачи, обучил
модели с различными функциями потерь и провёл анализ полученных результатов. В статье [3] автор участвовал в сборе и подготовке данных, выполнил эксперименты с базовыми методами, проанализировал результаты. В статье [4] автор разработал метод MSSPlace для объединения мультисенсорных мультимодальных данных, предложил компонент для выполнения кросс-модальных запросов, провёл соответствующие эксперименты и анализ, а также координировал выполнение всей экспериментальной части работы. В статье [5] автор разработал модифицированный метод MSSPlace-G для применения внутри помещений, обучил модель и адаптировал её для работы в составе системы топологического картографирования. К публикациям, в которых излагаются основные научные результаты диссертации на соискание учёной степени, приравнивается также полученное в соавторстве свидетельство на программу для электронных вычислительных машин, реализующую алгоритм агрегации последовательностей сенсорных данных Candidate Pool Fusion [6], зарегистрированное в установленном порядке.
Содержание диссертации соответствует паспорту специальности 1.2.1. Искусственный интеллект и машинное обучение, в частности, пунктам:
4. Разработка методов, алгоритмов и создание систем искусственного интеллекта и машинного обучения для обработки и анализа текстов на естественном языке, для изображений, речи, биомедицины и других специальных видов данных.
7. Разработка специализированного математического, алгоритмического и программного обеспечения систем искусственного интеллекта и машинного обучения. Методы и средства взаимодействия систем искусственного интеллекта с другими системами и человеком-оператором.
13. Методы и средства формирования массивов данных и прецедентов, включая «большие данные», необходимых для решения задач искусственного интеллекта и машинного обучения. Проблемно-ориентированные коллекции данных для важных прикладных областей.
17. Исследования в области многослойных алгоритмических конструкций, в том числе — многослойных нейросетей.
Объем и структура работы. Диссертация состоит из введения, 5 глав, заключения и 1 приложения. Полный объём диссертации составляет 145 страниц, включая 29 рисунков и 16 таблиц. Список литературы содержит 151 наименование.
Глава 1. Анализ существующих методов распознавания места и постановка
задачи
Данная глава посвящена комплексному анализу современного состояния области распознавания места и систематизации существующих подходов к решению этой задачи. В главе рассматриваются теоретические основы задачи распознавания места, её роль в робототехнических системах, эволюция методов от классических подходов к современным решениям на основе глубокого обучения, а также анализируются особенности методов обучения и специализированные техники, применяемые в данной области. На основе проведённого анализа выявляются ключевые ограничения существующих методов и обосновывается необходимость разработки мультимодальных подходов с учётом временных последовательностей данных, что составляет основу исследований, представленных в последующих главах диссертации.
1.1 Теоретические основы распознавания места
Для систематического анализа задачи распознавания места рассмотрим её теоретические основы, методы оценки качества и существующие наборы данных.
1.1.1 Роль в робототехнических системах
Распознавание места представляет собой фундаментальную способность автономных систем, которая лежит в основе решения ключевых вопросов пространственного восприятия: «Где я нахожусь?» и «Был ли я здесь раньше?» [7—9]. Эта задача не является изолированной функцией, а выступает центральным компонентом, обеспечивающим работу систем более высокого уровня в робототехнике и компьютерном зрении [10].
В контексте одновременной локализации и картографирования (SLAM) распознавание места играет критическую роль в обнаружении замыканий циклов [8; 10; 11]. Когда робот возвращается в ранее посещённую локацию, способность распознать это место позволяет системе установить топологическую связь между текущим положением и соответствующей точкой в уже построенной карте. Такие связи обеспечивают коррекцию накопленной погрешности одометрии, которая неизбежно возникает при длительном движении робота. Без механизма обнаружения замыканий циклов любая система SLAM подвержена неограниченному росту ошибок локализации, что делает построенную карту непригодной для долгосрочной навигации [11].
Не менее важной является роль распознавания места в решении задач глобальной локализации и релокализации [7; 12]. В ситуациях, когда робот теряет информацию о своём текущем положении (классическая проблема «похищенного робота») [13] или когда внешние системы позиционирования недоступны [7], способность распознать знакомое место становится единственным механизмом восстановления пространственной ориентации. Это особенно критично для автономных систем, работающих в условиях отсутствия сигналов глобального позиционирования, таких как подземные или внутренние пространства зданий. Кроме того, при многосессионном картографировании, когда робот возвращается в ранее изученную среду после длительного перерыва, распознавание места обеспечивает привязку новой траектории к существующей карте [14].
Современные тенденции развития робототехники выдвигают на первый план не только геометрическое, но и семантическое понимание среды [15]. Распознавание места эволюционирует от чисто внешнего сопоставления к анализу содержательных характеристик локаций. Это позволяет системам различать места не только по визуальному сходству, но и по их функциональному назначению и семантическому содержанию [8]. Такой подход открывает возможности для иерархической локализации, где робот сначала определяет тип окружающего пространства (офис, коридор, лаборатория), а затем уточняет своё точное положение в рамках данной категории. Семантическое понимание также способствует фильтрации динамических элементов среды и концентрации внимания на стабильных пространственных ориентирах [14].
В области многороботных систем распознавание места служит основой для координации и обмена пространственной информацией между автономными агентами [16]. Когда несколько роботов исследуют общую территорию, способность установить соответствия между наблюдениями разных агентов позволяет объединить их индивидуальные карты в единое согласованное представление среды [11; 16]. Это особенно важно для совместного картографирования крупномасштабных пространств, где каждый робот может покрывать лишь ограниченную область. Однако различия в типах сенсоров, точках обзора и временных характеристиках наблюдений создают дополнительные вызовы для межроботного распознавания мест [12].
Таким образом, распознавание места выступает связующим звеном между низкоуровневым восприятием сенсорных данных и высокоуровневыми задачами навигации и понимания среды [8; 10; 13]. Его роль в робототехнических системах продолжает расширяться по мере усложнения автономных платформ и возрастания требований к их надёжности и адаптивности [14]. Для полного понимания этой задачи необходимо рассмотреть её формальную математическую постановку, что и составляет предмет следующего подраздела.
1.1.2 Формальная постановка
Формально задача распознавания места может быть сформулирована как задача ранжирования элементов базы данных по степени их сходства с запросом. Пусть дан запрос
д, представляющий текущие сенсорные данные (изображение, облако точек LiDAR, или их комбинацию), и база данных ранее посещённых локаций 0 = {д1, д2,..., дм}, где каждый элемент дг содержит сенсорные данные, записанные в соответствующей географической точке. Целью является построение ранжированного списка элементов базы данных:
гап%,°) := (дПч {1),дщ {2),...,дПч {м)), (1.1)
где пд: {1,... N} ^ {1,... N} — перестановка индексов такая, что
к/(д),/(дпч(1)4 ^ к/(д),/(дпч^ ^... ^ р(/(д),/(д*чмо).
Здесь /(•): X ^ — функция кодирования сенсорных данных из исходного пространства X в Д-мерное векторное пространство дескрипторов, а р(-, •): х ^ — метрика сходства в пространстве дескрипторов.
Функция кодирования /(•) играет центральную роль в решении задачи, поскольку она определяет способ представления многомерных и разнородных сенсорных данных в едином векторном пространстве, где можно эффективно измерять сходство между локациями. В современных подходах функция /(•) обычно реализуется с помощью глубоких нейронных сетей, обученных извлекать информативные признаки из исходных данных и кодировать их в компактные векторы-дескрипторы фиксированной размерности.
Наиболее распространёнными метриками сходства являются евклидово расстояние и косинусная близость. Евклидово расстояние между векторами-дескрипторами и, V € определяется как:
РЬ2(и, V) = ||и - V12
\
э
]>>* - уг)2, (1.2)
г=1
где иг и уг — компоненты векторов и и V соответственно.
Косинусная близость измеряет угол между векторами в многомерном пространстве и определяется как:
Рс»(и, ^ = 1 - = 1 - , ^=1 Т , (1.3)
где и • V обозначает скалярное произведение векторов.
Общая схема описанного подхода представлена на Рисунке 1.1. Данное в формуле 1.1 определение через ранжирование отражает практическую природу задачи распознавания места, поскольку в реальных применениях часто требуется анализ не только наиболее вероятного соответствия, но и нескольких лучших кандидатов для повышения надёжности системы.
Данные сенсоров
Энкодер
Истинное местоположение
Ближайший дескриптор
База данных
Поиск ближайших соседей
Рисунок 1.1 — Схема базового подхода к распознаванию места. Запрос д и элементы базы данных д^ кодируются в векторы-дескрипторы с помощью энкодера (функции /(•)), после чего выполняется построение ранжированного списка. Представленная схема отражает фундаментальный принцип; на практике применяются различные усложненные модификации
этого подхода
1.1.3 Метрики оценки качества
Объективная оценка качества алгоритмов распознавания места является критически важной для сравнения различных подходов и обеспечения их практической применимости в робототехнических системах. В отличие от классических задач поиска информации, где релевантность определяется семантическим сходством, в задаче распознавания места ключевым критерием служит геопространственная близость между запросом и найденными кандидатами. Эта специфика требует адаптации стандартных метрик информационного поиска и разработки специализированных критериев оценки, учитывающих физическую природу пространственных данных и практические требования автономных систем.
Основной метрикой оценки качества в задаче распознавания места служит Recall@N, которая измеряет долю запросов, для которых корректное соответствие найдено среди первых N кандидатов в ранжированном списке [10; 12]. Формально, для множества запросов Q = [д\ ,д2,..., дм} метрика определяется как:
Recall@N = ^ I [Зг ^ N : match(q, дПд<0)] , (1.4)
где ![•] — индикаторная функция, а match(q, д¿) — предикат, определяющий корректность соответствия между запросом д и элементом базы данных д^ Практическая интерпретация Recall@N заключается в вероятности найти правильное место среди топ^ кандидатов, что непосредственно связано с эффективностью последующих этапов обработки в робототехнических системах. Значение параметра N варьируется в пределах от 1 до размера базы данных в зависимости от применения: Recall@1 характеризует точность наилучшего предсказания,
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Повышение эффективности методов генерации изображений мультимодальными нейронными сетями2025 год, кандидат наук Воронов Антон Дмитриевич
Методология решения проблемы одновременной навигации и построения карты на основе комбинирования визуальных и семантических характеристик окружающей среды2020 год, доктор наук Вохминцев Александр Владиславович
Методы и алгоритмы нейросимвольного обучения и планирования поведения когнитивных агентов2024 год, доктор наук Панов Александр Игоревич
Методы и алгоритмы планирования маршрута планетохода и коррекции навигационного комплекса2025 год, кандидат наук Чжан Минмин
Биотехническая система нейрофизиологической реабилитации с робототехническим устройством, управляемым посредством дешифрации электромиосигналов2021 год, кандидат наук Трифонов Андрей Андреевич
Список литературы диссертационного исследования кандидат наук Мелехин Александр Алексеевич, 2025 год
Список литературы
1. KirilenkoD.,KovalevA. K., Solomentsev Y,MelekhinA., YudinD. A.,PanovA. I. Vector Symbolic Scene Representation for Semantic Place Recognition // 2022 International Joint Conference on Neural Networks (IJCNN). — 2022. — P. 1—8. — DOI: 10.1109/IJCNN55064.2022.9892761.
2. Melekhin A., Yudin D. Impact of Loss Functions on the Training of LiDAR-based Place Recognition Models // Proceedings of the Seventh International Scientific Conference "Intelligent Information Technologies for Industry" (IITI'23) / ed. by S. Kovalev, I. Kotenko, A. Sukhanov. — Cham : Springer Nature Switzerland, 2023. — P. 147—157. — DOI: 10.1007/978-3-031-43789-2_13.
3. Melekhin A., Bezuglyj V, Petryashin I., Muravyev K., Linok S., Yudin D., Panov A. ITLP-Campus: A Dataset for Multimodal Semantic Place Recognition // Proceedings of the Eighth International Scientific Conference "Intelligent Information Technologies for Industry" (IITI'24), Volume 1 / ed. by S. Kovalev, I. Kotenko, A. Sukhanov, Y. Li, Y. Li. — Cham : Springer Nature Switzerland, 2024.—P. 185—195. —DOI: 10.1007/978-3-031-77688-5_18.
4. Melekhin A., Yudin D., Petryashin I., Bezuglyj V. MSSPlace: Multi-sensor place recognition with visual and text semantics // IEEE Access. — 2025. — DOI: 10.1109/ACCESS.2025.3618728.
5. Muravyev K., Melekhin A., Yudin D., Yakovlev K. PRISM-TopoMap: Online Topological Mapping With Place Recognition and Scan Matching // IEEE Robotics and Automation Letters. — 2025. — Vol. 10, No. 4.—P. 3126—3133.—DOI: 10.1109/LRA.2025.3541454.
6. Свидетельство о гос. регистрации программы для ЭВМ. Программа для нейросетевого распознавания места с использованием последовательностей сенсорных данных / А. Мелехин, С. Линок, К. Муравьев, Д. Юдин, А. Панов ; Федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт (национальный исследовательский университет)» (RU). — № 2025683054 ; заявл. 25.06.2025 ; опубл. 29.08.2025, 2025668763 (Рос. Федерация).
7. Garg S., Fischer T., Milford M. Where Is Your Place, Visual Place Recognition? // Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence. — 2021. — Aug. — P. 4416—4425. — DOI: 10.24963/ijcai.2021/603.
8. Yin P., Jiao J., Zhao S., XuL., Huang G., Choset H., Scherer S., Han J.General Place Recognition Survey: Toward Real-World Autonomy // IEEE Transactions on Robotics. — 2025. — Vol. 41. — P. 3019—3038.—DOI: 10.1109/TRO.2025.3550771.
9. Lowry S., Sunderhauf N., Newman P., Leonard J. J., Cox D., Corke P., MilfordM.J.Visual Place Recognition: A Survey // IEEE Transactions on Robotics. — 2016. — Feb. — Vol. 32, No. 1. — P. 1—19.—DOI: 10.1109/TRO.2015.2496823.
10. Schubert S., Neubert P, Garg S., Milford M., Fischer T. Visual Place Recognition: A Tutorial [Tutorial] // IEEE Robotics & Automation Magazine. — 2024. — Sept. — Vol. 31, No. 3. — P. 139—153.—DOI: 10.1109/MRA.2023.3310859.
11. Cadena C., Carlone L., Carrillo H., Latif Y., ScaramuzzaD., Neira J., ReidI., Leonard J.J.Past, Present, and Future of Simultaneous Localization and Mapping: Toward the Robust-Perception Age // IEEE Transactions on Robotics. — 2016. — Dec. — Vol. 32, No. 6. — P. 1309—1332. — DOI: 10.1109/TRO.2016.2624754.
12. Humenberger M., Cabon Y, Pion N., Weinzaepfel P., Lee D., Guerin N., Sattler T., Csurka G. Investigating the Role of Image Retrieval for Visual Localization // International Journal of Computer Vision.— 2022.— July 1. — Vol. 130, No. 7.—P. 1811—1836.—DOI: 10.1007/s11263-022-01615-7.
13. Zhang Y, Shi P, Li J.LiDAR-Based Place Recognition For Autonomous Driving: A Survey // ACMComput. Surv. — 2024. — Dec. 24. — Vol. 57, No. 4. — 106:1—106:36. — DOI: 10.1145/ 3707446.
14. Masone C., Caputo B. A Survey on Deep Visual Place Recognition // IEEE Access. — 2021. — Vol. 9.—P. 19516—19547.— DOI: 10.1109/ACCESS.2021.3054937.
15. Chen K., Xiao J., Liu J., Tong Q., Zhang H., Liu R., Zhang J., Ajoudani A., Chen S. Semantic Visual Simultaneous Localization and Mapping: A Survey // IEEE Transactions on Intelligent Transportation Systems. — 2025. — June. — Vol. 26, No. 6. — P. 7426—7449. — DOI: 10.1109/ TITS.2025.3556928.
16. Lajoie P.-Y., Ramtoula B., Wu F., Beltrame G. Towards Collaborative Simultaneous Localization and Mapping: A Survey of the Current Research Landscape // Field Robotics. — 2022. — May. — Vol. 2. — P. 971—1000. — DOI: 10.55417/fr.2022032.
17. ZhangX., WangL., Su Y. Visual Place Recognition: A Survey from Deep Learning Perspective // Pattern Recognition. — 2021.— May 1. —Vol. 113.—P. 107760.—DOI: 10.1016/j.patcog.2020. 107760.
18. Luo K., Yu H., Chen X., Yang Z., Wang J., Cheng P., Mian A. 3D Point Cloud-Based Place Recognition: A Survey // Artificial Intelligence Review. — 2024. — Mar. 7. — Vol. 57, No. 4. — P. 83.—DOI: 10.1007/s10462-024-10713-6.
19. Sattler T. [et al.]. Benchmarking 6DOF Outdoor Visual Localization in Changing Conditions // (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition). — 2018. — P. 8601—8610.—DOI: 10.1109/CVPR.2018.00897.
20. Maddern W., PascoeG., LinegarC., NewmanP. 1 Year, 1000 Km: The Oxford RobotCarDataset// The International Journal of Robotics Research. — 2017. — Jan. — Vol. 36, No. 1. — P. 3—15. — DOI: 10.1177/0278364916679498.
21. Maddern W., Pascoe G., Gadd M., Barnes D., Yeomans B., Newman P. Real-Time Kinematic Ground Truth for the Oxford RobotCar Dataset. — 02/24/2020. — DOI: 10.48550/arXiv.2002. 10152. — URL: https://arxiv.org/abs/2002.10152 (visited on 08/24/2025). — Pre-published.
22. Uy M. A., Lee G. H. PointNetVLAD: Deep Point Cloud Based Retrieval for Large-Scale Place Recognition // (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition). — 2018. —P. 4470—4479. — DOI: 10.1109/CVPR.2018.00470.
23. Komorowski /.MinkLoc3D: Point Cloud Based Large-Scale Place Recognition // (Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision). — 2021. — P. 1790—1799. —DOI: 10.1109/WACV48630.2021.00183.
24. Komorowski /., Wysoczanska M., Trzcinski T. MinkLoc++: Lidar and Monocular Image Fusion for Place Recognition // 2021 International Joint Conference on Neural Networks (IJCNN). — 07/2021. —P. 1—8. —DOI: 10.1109/IJCNN52387.2021.9533373.
25. Lai H.Yin P., Scherer S. AdaFusion: Visual-LiDAR Fusion With Adaptive Weights for Place Recognition // IEEE Robotics and Automation Letters. — 2022. — Oct. — Vol. 7, No. 4. — P. 12038—12045.—DOI: 10.1109/LRA.2022.3210880.
26. Luo L., Cao S.-Y., Li X., Xu /., Ai RYu Z., Chen X. BEVPlace++: Fast, Robust, and Lightweight LiDAR Global Localization for Autonomous Ground Vehicles // IEEE Transactions on Robotics. —2025. — Vol. 41. — P. 4479—4498. — DOI: 10.1109/TRO.2025.3585385.
27. Carlevaris-Bianco N., Ushani A. K., Eustice R M.University of Michigan North Campus Long-Term Vision and Lidar Dataset // The International Journal of Robotics Research. — 2016.— Aug.—Vol. 35, No. 9.—P. 1023—1035.—DOI: 10.1177/0278364915614638.
28. Geiger A., Lenz P, Urtasun R. Are We Ready for Autonomous Driving? The KITTI Vision Benchmark Suite // 2012 IEEE Conference on Computer Vision and Pattern Recognition. — 06/2012.— P. 3354—3361.—DOI: 10.1109/CVPR.2012.6248074.
29. Warburg F., Hauberg S., Lopez-Antequera M., Gargallo P, Kuang Y., Civera /.Mapillary Street-Level Sequences: A Dataset for Lifelong Place Recognition // (Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition). — 2020. — P. 2626—2635. — DOI: 10.1109/CVPR42600.2020.00270.
30. Ali-bey A., Chaib-draa B., Giguere P. GSV-Cities: Toward Appropriate Supervised Visual Place Recognition//Neurocomputing. —2022. —Nov. 7. — Vol. 513. —P. 194—203. — DOI: 10.1016/ j.neucom.2022.09.127.
31. Diaz-Ruiz C. A. [et al.]. Ithaca365: Dataset and Driving Perception Under Repeated and Challenging Weather Conditions // (Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition). — 2022. — P. 21383—21392. — DOI: 10.1109/CVPR52688. 2022.02069.
32. Burnett K. [et al.]. Boreas: A Multi-Season Autonomous Driving Dataset // The International Journal of Robotics Research. — 2023. — Mar. 17. — DOI: 10.1177/02783649231160195.
33. Kuipers B., Byun Y.-T. A Robot Exploration and Mapping Strategy Based on a Semantic Hierarchy of Spatial Representations // Robotics and Autonomous Systems. — 1991. — Nov. 1. — Vol. 8, No. 1. — P. 47—63. — (Special Issue Toward Learning Robots). — DOI: 10.1016/0921-8890(91) 90014-C.
34. Kortenkamp D., Baker L., Weymouth T. Using Gateways To Build A Route Map // Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems. V. 3 (The IEEE/RSJ International Conference on Intelligent Robots and Systems). — 07/1992. — P. 2209—2214. — DOI: 10.1109/IROS.1992.602138.
35. Ulrich I., Nourbakhsh I. Appearance-Based Place Recognition for Topological Localization // Proceedings 2000 ICRA. Millennium Conference. IEEE International Conference on Robotics and Automation. Symposia Proceedings (Cat. No.00CH37065). V. 2 (2000 ICRA. Millennium Conference. IEEE International Conference on Robotics and Automation. Symposia Proceedings (Cat. No.00CH37065)). —04/2000. — 1023—1029 vol.2. — DOI: 10.1109/R0B0T.2000.844734.
36. Bahl P, Padmanabhan V. RADAR: An in-Building RF-based User Location and Tracking System // Proceedings IEEE INFOCOM 2000. Conference on Computer Communications. Nineteenth Annual Joint Conference of the IEEE Computer and Communications Societies (Cat. No.00CH37064). V. 2. — 03/2000. — 775—784 vol.2. — DOI: 10.1109/INFCOM.2000.832252.
37. OlivaA., Torralba A. Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope // International Journal of Computer Vision. — 2001. — May 1. — Vol. 42, No. 3. — P. 145—175.—DOI: 10.1023/A:1011139631724.
38. Lowe D. G. Distinctive Image Features from Scale-Invariant Keypoints // International Journal of Computer Vision. — 2004. — Nov. 1. — Vol. 60, No. 2. — P. 91—110. — DOI: 10.1023/B : VISI.0000029664.99615.94.
39. Bay H., Tuytelaars T., Van Gool L. SURF: Speeded Up Robust Features // Computer Vision -ECCV 2006 / ed. by A. Leonardis, H. Bischof, A. Pinz. — Berlin, Heidelberg : Springer, 2006. — P. 404—417. — DOI: 10.1007/11744023_32.
40. Nister D., Stewenius H. Scalable Recognition with a Vocabulary Tree // 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06). V. 2. — 06/2006. — P. 2161—2168. — DOI: 10.1109/CVPR.2006.264.
41. Cummins M., Newman P. FAB-MAP: Probabilistic Localization and Mapping in the Space of Appearance // The International Journal of Robotics Research. — 2008. — June 1. — DOI: 10. 1177/0278364908090961.
42. Galvez-Lôpez D., Tardos J. D. Bags of Binary Words for Fast Place Recognition in Image Sequences//IEEE Transactions on Robotics. —2012. — Oct. — Vol. 28, No. 5. — P. 1188—1197. — DOI: 10.1109/TRO.2012.2197158.
43. Rublee E., Rabaud V., Konolige K., Bradski G. ORB: An Efficient Alternative to SIFT or SURF // 2011 International Conference on Computer Vision. — 11/2011. — P. 2564—2571. — DOI: 10. 1109/ICCV.2011.6126544.
44. Mur-Artal R., Montiel J. M.M., Tardôs J.D. ORB-SLAM: A Versatile and Accurate Monocular SLAM System // IEEE Transactions on Robotics. — 2015. — Oct. — Vol. 31, No. 5. — P. 1147—1163.—DOI: 10.1109/TRO.2015.2463671.
45. MilfordM. J., Wyeth Gordon. F. SeqSLAM: Visual Route-Based Navigation for Sunny Summer Days and Stormy Winter Nights // 2012 IEEE International Conference on Robotics and Automation. — 05/2012. — P. 1643—1649. — DOI: 10.1109/ICRA.2012.6224623.
46. Churchill W, Newman P. Experience-Based Navigation for Long-Term Localisation // The International Journal of Robotics Research. — 2013. — Sept. 16. — Vol. 32, No. 14. — P. 1645—1661.—DOI: 10.1177/0278364913499193.
47. Mousavian A., Koseckâ J., Lien J.-M.Semantically Guided Location Recognition for Outdoors Scenes //2015 IEEE International Conference on Robotics and Automation (ICRA). — 05/2015. — P. 4882—4889. — DOI: 10.1109/ICRA.2015.7139877.
48. Naseer T, Oliveira G. L., Brox T., Burgard W. Semantics-Aware Visual Localization under Challenging Perceptual Conditions // 2017 IEEE International Conference on Robotics and Automation (ICRA). — 05/2017. — P. 2614—2620. — DOI: 10.1109/ICRA.2017.7989305.
49. Tipaldi G. D., Spinello L., Burgard W. Geometrical FLIRT Phrases for Large Scale Place Recognition in 2D Range Data // 2013 IEEE International Conference on Robotics and Automation. — 05/2013. — P. 2693—2698. — DOI: 10.1109/ICRA.2013.6630947.
50. Maddern W., Vidas S. Towards Robust Night and Day Place Recognition Using Visible and Thermal Imaging //Proceedings of the RSS 2012 Workshop: Beyond Laser and Vision: Alternative Sensing Techniques for Robotic Perception / ed. by M. Devy, A. Kelly, T. Peynot, S. Monteiro. — Australia : University of Sydney, 2012. — P. 1—6. — URL: https://eprints.qut.edu.au/52646/ (visited on 08/24/2025).
51. Evers C., Moore A. H., Naylor P. A. Acoustic Simultaneous Localization and Mapping (A-SLAM) of a Moving Microphone Array and Its Surrounding Speakers // 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — 03/2016. — P. 6—10. — DOI: 10.1109/ICASSP.2016.7471626.
52. Krizhevsky A., Sutskever I., Hinton G. E. ImageNet classification with deep convolutional neural networks // Communications of the ACM. — 2012. — Vol. 60. — P. 84—90. — DOI: 10.1145/ 3065386.
53. Sunderhauf N., Shirazi S., Dayoub F., Upcroft B., MilfordM. On the Performance of ConvNet Features for Place Recognition //2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). — 09/2015. — P. 4297—4304. — DOI: 10.1109/IROS.2015.7353986.
54. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. — 04/10/2015. — DOI: 10 . 48550 / arXiv . 1409 . 1556. — URL: https://arxiv.org/abs/1409.1556 (visited on 08/24/2025). — Pre-published.
55. Chen Z., Lam O., Jacobson A., Milford M. Convolutional Neural Network-based Place Recognition. — 11/06/2014. — DOI: 10 . 48550 / arXiv . 1411 . 1509. — URL: https://arxiv.org/abs/1411.1509 (visited on 08/24/2025). — Pre-published.
56. Arandjelovic R., GronatP., ToriiA., PajdlaT., Sivic J.NetVLAD: CNN Architecture for Weakly Supervised Place Recognition // (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition). —2016. — P. 5297—5307. — DOI: 10.1109/TPAMI.2017.2711011.
57. Jégou H., Douze M., Schmid C., Pérez P. Aggregating Local Descriptors into a Compact Image Representation // 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. — 06/2010. — P. 3304—3311. — DOI: 10.1109/CVPR.2010.5540039.
58. Torii A., Sivic J., Pajdla T., Okutomi M.Visual Place Recognition with Repetitive Structures // (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition). — 2013. — P. 883—890.—DOI: 10.1109/CVPR.2013.119.
59. Lopez-Antequera M., Gomez-Ojeda R., Petkov N., Gonzalez-Jimenez J.Appearance-Invariant Place Recognition by Discriminatively Training a Convolutional Neural Network // Pattern Recognition Letters. — 2017. — June 1. — Vol. 92. — P. 89—95. — DOI: 10. 1016/j. patrec. 2017.04.017.
60. Radenovic F., Tolias G., Chum O. Fine-Tuning CNN Image Retrieval with No Human Annotation // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2019. — July. — Vol. 41, No. 7. — P. 1655—1668. — DOI: 10.1109/TPAMI.2018.2846566.
61. Noh H., Araujo A., Sim J., Weyand T., Han B. Large-Scale Image Retrieval With Attentive Deep Local Features // (Proceedings of the IEEE International Conference on Computer Vision). — 2017. — P. 3456—3465. — DOI: 10.1109/ICCV.2017.374.
62. Mishchuk A., Mishkin D., Radenovic F., Matas J.Working hard to know your neighbor 's margins: local descriptor learning loss // Proceedings of the 31st International Conference on Neural Information Processing Systems. — Curran Associates Inc., 2017. — P. 4829—4840. — (NIPS'17). - URL: https://dl.acm.org/doi/abs/10.5555/3295222.3295236 (visited on 08/24/2025).
63. Latif Y, Garg R., Milford M., Reid I. Addressing Challenging Place Recognition Tasks Using Generative Adversarial Networks // 2018 IEEE International Conference on Robotics and Automation (ICRA). — 05/2018. — P. 2349—2355. — DOI: 10.1109/ICRA.2018.8461081.
64. Naseer T, Burgard W., Stachniss C. Robust Visual Localization Across Seasons // IEEE Transactions on Robotics. — 2018. — Apr. — Vol. 34, No. 2. — P. 289—302. — DOI: 10.1109/ TRO.2017.2788045.
65. Wang T.-H, Huang H.-J, Lin J.-T, Hu C.-W., Zeng K.-H., Sun M. Omnidirectional CNN for Visual Place Recognition and Navigation //2018 IEEE International Conference on Robotics and Automation (ICRA). — 05/2018. — P. 2341—2348. — DOI: 10.1109/ICRA.2018.8463173.
66. HeL., WangX., ZhangH. M2DP: ANovel 3D Point Cloud Descriptor and Its Application in Loop Closure Detection //2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). — 10/2016. — P. 231—237. — DOI: 10.1109/IROS.2016.7759060.
67. Kim G., Kim A. Scan Context: Egocentric Spatial Descriptor for Place Recognition Within 3D Point Cloud Map //2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). — 10/2018. — P. 4802—4809. — DOI: 10.1109/IROS.2018.8593953.
68. Qi C. R, Su H., Mo K., Guibas L. J.PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation // (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition). — 2017. — P. 652—660. — DOI: 10.1109/CVPR.2017.16.
69. Cen S. H., Newman P. Precise Ego-Motion Estimation with Millimeter-Wave Radar Under Diverse and Challenging Conditions //2018 IEEE International Conference on Robotics and Automation (ICRA). — 05/2018. — P. 6045—6052. — DOI: 10.1109/ICRA.2018.8460687.
70. Kim G., Park Y S., Cho Y., Jeong J., Kim A. MulRan: Multimodal Range Dataset for Urban Place Recognition // 2020 IEEE International Conference on Robotics and Automation (ICRA). — 05/2020. — P. 6246—6253. — DOI: 10.1109/ICRA40945.2020.9197298.
71. Hausier S., Garg S., Xu M.., Milford M., Fischer T. Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition // (Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition). — 2021. — P. 14141—14152. — DOI: 10.1109/ CVPR46437.2021.01392.
72. Berton G., Masone C., Caputo B. Rethinking Visual Geo-Localization for Large-Scale Applications // (Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition). — 2022. — P. 4878—4888. — DOI: 10.1109/CVPR52688.2022.00483.
73. Wang R, Shen Y, Zuo W., Zhou S., Zheng N.TransVPR: Transformer-Based Place Recognition With Multi-Level Attention Aggregation // (Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition). — 2022. — P. 13648—13657. — DOI: 10 .1109/ CVPR52688.2022.01328.
74. Dosovitskiy A. [et al.]. An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale. — 10/02/2020. — DOI: 10 . 48550 / arXiv . 2010 . 11929. — URL: https://arxiv.org/abs/2010.11929 (visited on 08/24/2025). — Pre-published.
75. Zhu S., YangL., Chen C., Shah M., Shen X., Wang H. R2Former: Unified Retrieval and Reranking Transformer for Place Recognition // (Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition). — 2023. — P. 19370—19380. — DOI: 10.1109/CVPR52729. 2023.01856.
76. Ali-bey A., Chaib-draa B., Giguère P. MixVPR: Feature Mixing for Visual Place Recognition // (Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision). — 2023. —P. 2998—3007. —DOI: 10.1109/WACV56688.2023.00301.
77. Berton G., Trivigno G., CaputoB., Masone C. EigenPlaces: Training Viewpoint Robust Models for Visual Place Recognition // (Proceedings of the IEEE/CVF International Conference on Computer Vision). —2023. — P. 11080-11090. — DOI: 10.1109/ICCV51070.2023.01017.
78. Ali-bey A., Chaib-draa B., Giguere P. BoQ: A Place Is Worth a Bag of Learnable Queries // (Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition). — 2024.—P. 17794—17803. —DOI: 10.1109/CVPR52733.2024.01685.
79. Fan Z., Song Z., Liu H., Lu Z., He J.., Du X. SVT-Net: Super Light-Weight Sparse Voxel Transformer for Large Scale Place Recognition // Proceedings of the AAAI Conference on Artificial Intelligence. — 2022. — June 28. — Vol. 36, issue 1, No. 1. — P. 551—560. — DOI: 10.1609/aaai.v36i1.19934.
80. Hou Z., Yan Y, Xu C., Kong H. HiTPR: Hierarchical Transformer for Place Recognition in Point Cloud // 2022 International Conference on Robotics and Automation (ICRA). — 05/2022. — P. 2612—2618. — DOI: 10.1109/ICRA46639.2022.9811737.
81. Komorowski J. Improving Point Cloud Based Place Recognition with Ranking-based Loss and Large Batch Training // 2022 26th International Conference on Pattern Recognition (ICPR). — 08/2022. — P. 3699—3705. — DOI: 10.1109/ICPR56361.2022.9956458.
82. Cattaneo D., Vaghi M., Valada A. LCDNet: Deep Loop Closure Detection and Point Cloud Registration for LiDAR SLAM // IEEE Transactions on Robotics. — 2022. — Aug. — Vol. 38, No. 4. — P. 2074—2093. — DOI: 10.1109/TRO.2022.3150683.
83. Yin H., Xu X., Wang Y., Xiong R. Radar-to-Lidar: Heterogeneous Place Recognition via Joint Learning // Frontiers in Robotics and AI. — 2021. — May 17. — Vol. 8. — DOI: 10.3389/frobt. 2021.661199.
84. Liang A., Chen Z., Xiong W., Meng F., Yin Y., Zhang D., Li Q. BdFusion: Bi-directional Visual-LiDAR Fusion for Resilient Place Recognition // ISPRS Journal of Photogrammetry and Remote Sensing. —2025. — Oct. 1. — Vol. 228. —P. 408—419. —DOI: 10.1016/j.isprsjprs.2025. 07.022.
85. FuS., Duan Y., Li Y, Meng C., Wang Y, Ji J., Zhang Y. CRPlace: Camera-Radar Fusion with BEV Representation for Place Recognition // 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). — 10/2024. — P. 8421—8427. — DOI: 10.1109/IROS58592.2024. 10802267.
86. HuJ., Mao C., Tan C., LiH., LiuH., ZhengM.ProGEO: Generating Prompts Through Image-Text Contrastive Learning for Visual Geo-Localization // Artificial Neural Networks and Machine Learning - ICANN 2024 / ed. by M. Wand, K. Malinovska, J. Schmidhuber, I. V. Tetko. — Cham : Springer Nature Switzerland, 2024. — P. 448—462. — DOI: 10.1007/978-3-031-72338-4_30.
87. Radford A. [et al.]. Learning Transferable Visual Models From Natural Language Supervision // Proceedings of the 38th International Conference on Machine Learning (International Conference on Machine Learning). — PMLR, 07/01/2021. — P. 8748—8763. — URL: https://proceedings.mlr.press/v139/radford21a.html (visited on 08/13/2025).
88. Mereu R., Trivigno G., Berton G., Masone C., Caputo B. Learning Sequential Descriptors for Sequence-Based Visual Place Recognition // IEEE Robotics and Automation Letters. — 2022. — Oct.—Vol. 7, No. 4.—P. 10383—10390.—DOI: 10.1109/LRA.2022.3194310.
89. ChancanM., MilfordM. Sequential Place Learning: Heuristic-Free High-Performance Long-Term Place Recognition. — 03/02/2021. — DOI: 10 . 48550 / arXiv . 2103 . 02074. — URL: https://arxiv.org/abs/2103.02074 (visited on 08/24/2025). — Pre-published.
90. Ma /., Chen X., Xu /., Xiong G. SeqOT: A Spatial-Temporal Transformer Network for Place Recognition Using Sequential LiDAR Data // IEEE Transactions on Industrial Electronics. — 2023. — Aug. — Vol. 70, No. 8. — P. 8225—8234. — DOI: 10.1109/TIE.2022.3229385.
91. Li Z., Shang T., Xu P., Zhang R., Kong F. OptiCorNet: Optimizing Sequence-Based Context Correlation for Visual Place Recognition. — 07/19/2025. — DOI: 10.48550/arXiv.2507.14477. — URL: https://arxiv.org/abs/2507.14477 (visited on 08/24/2025). — Pre-published.
92. Garg S., Milford M.SeqNet: Learning Descriptors for Sequence-Based Hierarchical Place Recognition // IEEE Robotics and Automation Letters. — 2021. — July. — Vol. 6, No. 3. — P. 4305—4312. —DOI: 10.1109/LRA.2021.3067633.
93. Vysotska O., Bogoslavskyi I., Hutter M., Stachniss C. Adaptive Thresholding for Sequence-Based Place Recognition // (42nd IEEE International Conference on Robotics and Automation (ICRA 2025)). —2025. —P. 2219—2225. — DOI: 10.1109/ICRA55743.2025.11128422.
94. Hussaini S., Fischer T., MilfordM. Improving Visual Place Recognition with Sequence-Matching Receptiveness Prediction. — 03/10/2025. — DOI: 10 . 48550/arXiv . 2503 . 06840. — URL: https://arxiv.org/abs/2503.06840 (visited on 08/24/2025). — Pre-published.
95. TomitaM.-A., ZaffarM.,MilfordM. /.,McDonald-MaierK. D.,EhsanS. ConvSequential-SLAM: A Sequence-Based, Training-Less Visual Place Recognition Technique for Changing Environments // IEEE Access. — 2021. — Vol. 9. — P. 118673—118683. — DOI: 10. 1109/ ACCESS.2021.3107778.
96. Garg S., Vankadari M., MilfordM.SeqMatchNet: Contrastive Learning with Sequence Matching for Place Recognition & Relocalization // Proceedings of the 5th Conference on Robot Learning (Conference on Robot Learning). — PMLR, 01/11/2022. — P. 429—443. — URL: https://proceedings.mlr.press/v164/garg22a.html (visited on 08/24/2025).
97. Choi S.-M., Lee S.-I., Lee /.-Y., Kweon I. S. Semantic-Guided de-Attention with Sharpened Triplet Marginal Loss for Visual Place Recognition // Pattern Recognition. — 2023. — Sept. 1. — Vol. 141.—P. 109645.—DOI: 10.1016/j.patcog.2023.109645.
98. /iang W., Xue H., Si S., Min C., Xiao L., Nie Y., Dai B. SG-LPR: Semantic-Guided LiDAR-Based Place Recognition // Electronics. — 2024. — Jan. — Vol. 13, No. 22. — P. 4532. — DOI: 10.3390/ electronics13224532.
99. Ming Y, Yang X., Zhang G., Calway A. CGiS-Net: Aggregating Colour, Geometry and Implicit Semantic Features for Indoor Place Recognition // 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). — 10/2022. — P. 6991—6997. — DOI: 10. 1109/ IROS47612.2022.9981113.
100. Ming Y., Ma J.., Yang X., Dai W., Peng Y., Kong W. AEGIS-Net: Attention-Guided Multi-Level Feature Aggregation for Indoor Place Recognition // ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — 04/2024. — P. 4030—4034. — DOI: 10.1109/ICASSP48485.2024.10447578.
101. Liao M., Di X., Liu M., Lv T., Zhang X., Zhu R. Dynamic-Aware and Static Context Network for Large-Scale 3D Place Recognition // Knowledge-Based Systems. — 2025. — June 15. — Vol. 319. — P. 113577. — DOI: 10.1016/j.knosys.2025.113577.
102. Qin C., Zhang Y, Liu Y, Lv G. Semantic Loop Closure Detection Based on Graph Matching in Multi-Objects Scenes // Journal of Visual Communication and Image Representation. — 2021. — Apr. 1. — Vol. 76. —P. 103072. —DOI: 10.1016/j.jvcir.2021.103072.
103. Garg K., Puligilla S. S., Kolathaya S., Krishna M., Garg S. Revisit Anything: Visual Place Recognition via Image Segment Retrieval // Computer Vision - ECCV 2024 / ed. by A. Leonardis, E. Ricci, S. Roth, O. Russakovsky, T. Sattler, G. Varol. — Cham : Springer Nature Switzerland, 2025.—P. 326—343. —DOI: 10.1007/978-3-031-73113-6_19.
104. Raisi Z.., Zelek J.Visual Place Recognition from End-to-End Semantic Scene Text Features // Frontiers in Robotics and AI.— 2024. — Sept. 16. —Vol. 11.—DOI: 10.3389/frobt.2024.1424883.
105. Woo S., Kim S.-W. Context-Based Visual-Language Place Recognition. — 10/25/2024. — DOI: 10.48550/arXiv.2410.19341.—URL: https://arxiv.org/abs/2410.19341 (visitedon08/24/2025). — Pre-published.
106. Pramatarov G., De Martini D., GaddM., Newman P. BoxGraph: Semantic Place Recognition and Pose Estimation from 3D LiDAR// 2022IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). — 10/2022. — P. 7004—7011. — DOI: 10.1109/IROS47612.2022.9981266.
107. YangL.,MascaroR., Alzugarayl.,PrakhyaS.M.,KarrerM.,LiuZ., ChliM.LiDARLoop Closure Detection Using Semantic Graphs with Graph Attention Networks // Journal of Intelligent & Robotic Systems. — 2025. — Jan. 11. — Vol. 111, No. 1. — P. 13. — DOI: 10. 1007/s10846-025-02223-6.
108. Gao G., XiongZ., Zhao Y., ZhangL. Landmark Topology Descriptor-Based Place Recognition and Localization under Large View-Point Changes // Sensors. — 2023. — Jan. — Vol. 23, No. 24. — P. 9775. — DOI: 10.3390/s23249775.
109. Lin S., Wang J., Xu M., Zhao H., Chen Z. Topology Aware Object-Level Semantic Mapping Towards More Robust Loop Closure // IEEE Robotics and Automation Letters. — 2021. — Oct. — Vol. 6, No. 4. — P. 7041—7048. — DOI: 10.1109/LRA.2021.3097242.
110. Lyu Z., Zhang J., Lu M., Li Y., Feng C. Tell Me Where You Are: Multimodal LLMs Meet Place Recognition. — 06/25/2024. — DOI: 10 . 48550 / arXiv . 2406 . 17520. — URL: https://arxiv.org/abs/2406.17520 (visited on 08/24/2025). — Pre-published.
111. Melekhov I., Kannala J., Rahtu E. Siamese Network Features for Image Matching // 2016 23rd International Conference on Pattern Recognition (ICPR). — Cancun : IEEE, 12/2016. — P. 378—383. — DOI: 10.1109/ICPR.2016.7899663.
112. Hermans A., Beyer L., Leibe B. In Defense of the Triplet Loss for Person Re-Identification. — 11/21/2017. — DOI: 10 . 48550/arXiv. 1703 . 07737. — URL: https://arxiv.org/abs/1703.07737 (visited on 08/24/2025). — Pre-published.
113. Xu T.-X., Guo Y.-C., Lai Y.-K., Zhang S.-H. TransLoc3D : Point Cloud Based Large-scale Place Recognition Using Adaptive Receptive Fields. — 06/01/2021. — DOI: 10.48550/arXiv.2105. 11605. — URL: https://arxiv.org/abs/2105.11605 (visited on 08/24/2025). — Pre-published.
114. Chen W, Chen X., Zhang J., Huang K. Beyond Triplet Loss: A Deep Quadruplet Network for Person Re-Identification // (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition). — 2017. — P. 403—412. — DOI: 10.1109/CVPR.2017.145.
115. Liu Z., Zhou S., Suo C, Yin P, Chen W., Wang H, Li H.., Liu Y.-H. LPD-Net: 3D Point Cloud Learning for Large-Scale Place Recognition and Environment Analysis // (Proceedings of the IEEE/CVF International Conference on Computer Vision). — 2019. — P. 2831—2840. — DOI: 10.1109/ICCV.2019.00292.
116. Zhang W., Xiao C. PCAN: 3D Attention Map Learning Using Contextual Information for Point Cloud Based Retrieval // (Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition). —2019. — P. 12436—12445. — DOI: 10.1109/CVPR.2019.01272.
117. Revaud J., Almazan J., Rezende R S., Souza C. R. de. Learning With Average Precision: Training Image Retrieval With a Listwise Loss // (Proceedings of the IEEE/CVF International Conference on Computer Vision). —2019. — P. 5107—5116. — DOI: 10.1109/ICCV.2019.00521.
118. Потапов А. С. Системы Компьютерного Зрения. Учебное Пособие // СПб: Университет ИТМО. — 2016. — С. 10—18.
119. Bengio Y, Goodfellow I., Courville A. Deep Learning. V. 1. — Cambridge, MA, USA : MIT press, 2017. — 705 p.
120. Acharya D., Tennakoon R., Muthu S., Khoshelham K., Hoseinnezhad R., Bab-Hadiashar A. Single-Image Localisation Using 3D Models: Combining Hierarchical Edge Maps and Semantic Segmentation for Domain Adaptation // Automation in Construction. — 2022. — Apr. 1. — Vol. 136.—P. 104152.—DOI: 10.1016/j.autcon.2022.104152.
121. Hong Z.., Petillot Y., Lane D., Miao Y, Wang S. TextPlace: Visual Place Recognition and Topological Localization Through Reading Scene Texts // (Proceedings of the IEEE/CVF International Conference on Computer Vision). — 2019. — P. 2861—2870. — DOI: 10.1109/ ICCV.2019.00295.
122. Li P., Li X., PanH., KhyamM. O., Noor-A-Rahim Md. Text-Based Indoor Place Recognition with Deep Neural Network//Neurocomputing. —2020. —May 21. — Vol. 390. —P. 239—247. —DOI: 10.1016/j.neucom.2019.02.065.
123. Kolmet M., Zhou Q., Osep A., Leal-Taixe L. Text2Pos: Text-to-Point-Cloud Cross-Modal Localization // (Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition). — 2022. — P. 6687—6696. — DOI: 10.1109/CVPR52688.2022.00657.
124. Hettiarachchi D., Tian Y, Yu H., Kamijo S. Text Spotting towards Perceptually Aliased Urban Place Recognition // Multimodal Technologies and Interaction. — 2022. — Nov. — Vol. 6, issue 11, No. 11.—P. 102.—DOI: 10.3390/mti6110102.
125. Wang G., Fan H., Kankanhalli M. Text to Point Cloud Localization with Relation-Enhanced Transformer // Proceedings of the AAAI Conference on Artificial Intelligence. — 2023. — June 26. — Vol. 37, No. 2. — P. 2501—2509. — DOI: 10.1609/aaai.v37i2.25347.
126. Cui Y, ChenR, Chu W., ChenL., TianD., Li Y, CaoD. Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review // IEEE Transactions on Intelligent Transportation Systems. —2022. — Feb. — Vol. 23, No. 2. — P. 722—739. — DOI: 10.1109/TITS.2020.3023541.
127. Pan Y., Xu X., Li W., Cui Y., Wang Y., Xiong R. CORAL: Colored Structural Representation for Bi-Modal Place Recognition // 2021IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). — 09/2021. — P. 2084—2091. — DOI: 10.1109/IROS51168.2021.9635839.
128. Lin T.-Y., Dollar P, Girshick R., He K., Hariharan B., Belongie S. Feature Pyramid Networks for Object Detection // (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition). — 2017. — P. 2117—2125. — DOI: 10.1109/CVPR.2017.106.
129. Wang Q., Wu B., Zhu P., Li P, Zuo W., Hu Q. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks // (Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition).— 2020.— P. 11534—11542.—DOI: 10.1109/CVPR42600.2020.01155.
130. He K., Zhang X., Ren S., Sun J.Deep Residual Learning for Image Recognition // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — Las Vegas, NV, USA : IEEE, 06/2016. — P. 770—778. — DOI: 10.1109/CVPR.2016.90.
131. loffe S., Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift // Proceedings of the 32nd International Conference on Machine Learning (International Conference on Machine Learning). — PMLR, 06/01/2015. — P. 448—456. — URL: https://proceedings.mlr.press/v37/ioffe15.html (visited on 08/24/2025).
132. Nair V., Hinton G. E. Rectified Linear Units Improve Restricted Boltzmann Machines // Proceedings of the 27th international conference on machine learning (ICML-10). — 2010. — P. 807—814. —URL: https://dl.acm.org/doi/10.5555/3104322.3104425 (visited on 08/24/2025).
133. Sparck Jones K. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. — 1972. — Jan. 1. — Vol. 28, No. 1. — P. 11—21. — DOI: 10.1108/ eb026526.
134. Salton G., Buckley C. Term-Weighting Approaches in Automatic Text Retrieval // Information Processing & Management. — 1988. — Jan. 1. — Vol. 24, No. 5. —P. 513—523. —DOI: 10.1016/ 0306-4573(88)90021-0.
135. Devlin /., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) (NAACL-HLT 2019) / ed. by J. Burstein, C. Doran, T. Solorio. — Minneapolis, Minnesota : Association for Computational Linguistics, 06/2019.— P. 4171—4186. — DOI: 10.18653/v1/N19-1423.
136. Song K., Tan X., Qin T., Lu /., Liu T.-Y. MPNet: masked and permuted pre-training for language understanding // Proceedings of the 34th International Conference on Neural Information Processing Systems. — Vancouver, BC, Canada, 2020. —P. 16857—16867. — (NIPS '20). —URL: https://dl.acm.org/doi/10.5555/3495724.3497138 (visited on 08/24/2025).
137. Fang Y, Sun Q., WangX., Huang T., WangX., Cao Y. EVA-02: A Visual Representation for Neon Genesis // Image and Vision Computing. — 2024. — Sept. 1. — Vol. 149. — P. 105171. — DOI: 10.1016/j.imavis.2024.105171.
138. Hendrycks D., Gimpel K. Gaussian Error Linear Units (GELUs). — 06/06/2023. — DOI: 10 . 48550/arXiv. 1606.08415. — URL: https://arxiv.org/abs/1606.08415 (visited on 08/24/2025). — Pre-published.
139. Vaswani A., Shazeer N., Parmar N., Uszkoreit /., /ones L., Gomez A. N., Kaiser L., Polosukhin I. Attention is all you need // Proceedings of the 31st International Conference on Neural Information Processing Systems. — 2017. — P. 6000—6010. — (NIPS'17). — URL: https://dl.acm.org/doi/10.5555/3295222.3295349 (visited on 08/24/2025).
140. Placed /.A., Strader /., Carrillo H., Atanasov N., Indelman V, Carlone L., Castellanos /.A. A Survey on Active Simultaneous Localization and Mapping: State of the Art and New Frontiers // IEEE Transactions on Robotics. — 2023. — June. — Vol. 39, No. 3. — P. 1686—1705. — DOI: 10.1109/TRO.2023.3248510.
141. Cover T.M. Elements of Information Theory. — Hoboken, NJ, USA : John Wiley & Sons, 1999. — 565 p.
142. Kay S. M. Fundamentals of Statistical Signal Processing: Estimation Theory. — United States : Prentice-Hall, Inc., 1993. — 595 p.
143. Oquab M. [et al.]. DINOv2: Learning Robust Visual Features without Supervision. — 02/02/2024. — DOI: 10 .48550/arXiv. 2304 . 07193. — URL: https://arxiv.org/abs/2304.07193 (visited on 08/24/2025). — Pre-published.
144. Zaffar M., Garg S., MilfordM., Kooij /., Flynn D., McDonald-Maier K., Ehsan S. VPR-Bench: An Open-Source Visual Place Recognition Evaluation Framework with Quantifiable Viewpoint and Appearance Change // International Journal of Computer Vision. — 2021. — July 1. — Vol. 129, No. 7. — P. 2136—2174. — DOI: 10.1007/s11263-021-01469-5.
145. Wang W., Sakurada K., Kawaguchi N.Reflectance Intensity Assisted Automatic and Accurate Extrinsic Calibration of 3D LiDAR and Panoramic Camera Using a Printed Chessboard // Remote Sensing. —2017. — T. 9, № 8. — DOI: 10.3390/rs9080851.
146. Hess W., Kohler DRapp H., Andor D. Real-Time Loop Closure in 2D LIDAR SLAM // 2016 IEEE International Conference on Robotics and Automation (ICRA). — Stockholm, Sweden : IEEE, 05/2016.—P. 1271—1278. —DOI: 10.1109/ICRA.2016.7487258.
147. Jain J., Li J., Chiu M. T., Hassani A., Orlov N., Shi H. OneFormer: One Transformer To Rule Universal Image Segmentation // (Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition). — 2023. — P. 2989—2998. — DOI: 10.1109/CVPR52729.2023.00292.
148. Zhu D., Chen J., Shen X., Li X., Elhoseiny M.MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. — 04/20/2023. — DOI: 10.48550/arXiv. 2304.10592. — URL: https://arxiv.org/abs/2304.10592 (visited on 08/24/2025). — Pre-published.
149. Ramakrishnan S. K. [et al.]. Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments for Embodied AI. — 09/16/2021. — DOI: 10.48550/arXiv.2109.08238. — URL: https://arxiv.org/abs/2109.08238 (visited on 08/24/2025). — Pre-published.
150. Xia F., Zamir A. R., He Z., Sax A., Malik J., Savarese S. Gibson Env: Real-World Perception for Embodied Agents // (Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition). — 2018. — P. 9068—9079. — DOI: 10.1109/CVPR.2018.00945.
151. Chang A., Dai A., Funkhouser T., Halber M., Niefiner M., Savva M., Song S., Zeng A., Zhang Y Matterport3D: Learning from RGB-D Data in Indoor Environments. — 09/18/2017. — DOI: 10. 48550/arXiv. 1709.06158. — URL: https://arxiv.org/abs/1709.06158 (visited on 08/24/2025). — Pre-published.
Приложение А
Государственная регистрация программы для ЭВМ «Программа для нейросетевого распознавания места с использованием последовательностей сенсорных данных»
РОССИЙСКАЯ ФЕДЕРАЦИЯ
RU2025683054
ФЕДЕРАЛЬНАЯ СЛУЖБА ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ
ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ ЭВМ
Номер регистрации (свидетельства): 2025683054 Дата регистрации: 29.08.2025 Номер и дата поступления заявки: 2025668763 25.06.2025 Дата публикации и номер бюллетеня: 29.08.2025 Бюл.№ 9 Контактные реквизиты: 141700, Московская обл., г. Долгопрудный, Институтский пер., 9, 84954084044, sukmanskaia.ov@mipt.ru
Автор(ы):
Мелехин Александр Алексеевич (ДЩ Линок Сергей Александрович (Ди), Муравьев Кирилл Федорович (Ди), Юдин Дмитрий Александрович (ДЩ Панов Александр Игоревич (Ди) Правообладатель(и):
федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт (национальный исследовательский университет)» (Ди)
Название программы для ЭВМ:
Программа для нейросетевого распознавания места с использованием последовательностей сенсорных данных
Реферат:
Программа предназначена для формирования компактных векторных представлений сенсорных данных и поиска похожих мест в пространстве с их использованием, что необходимо для систем локализации и навигации интеллектуальных роботов и беспилотных автомобилей. Программа выполняет следующие функции: извлечение векторных представлений из RGB-изображений, облаков точек LiDAR и семантических масок с помощью настраиваемых нейросетевых энкодеров; агрегацию последовательностей признаков посредством усреднения, максимального объединения, механизма внимания и модели обучаемых запросов; поиск похожих мест по сформированным векторным представлениям сенсорных данных с возможностью применения алгоритма повторного ранжирования, который объединяет списки кандидатов от каждого векторного представления и отбирает наиболее похожие по метрике близости. Тип ЭВМ: наличие GPU. ОС: Ubuntu 22.04.
Язык программирования: Python
Объем программы для ЭВМ: 16 КБ
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.