Исследование и разработка методов и алгоритмов мультимодального обучения с подкреплением в сложных динамических средах

Воловикова Зоя Александровна

Исследование и разработка методов и алгоритмов мультимодального обучения с подкреплением в сложных динамических средах тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Воловикова Зоя Александровна

Воловикова Зоя Александровна
кандидат наук
2025

Специальность ВАК РФ00.00.00

Количество страниц 145

Воловикова Зоя Александровна. Исследование и разработка методов и алгоритмов мультимодального обучения с подкреплением в сложных динамических средах: дис. кандидат наук: 00.00.00 - Другие cпециальности. «Московский физико-технический институт (национальный исследовательский университет)». 2025. 145 с.

Оглавление диссертации кандидат наук Воловикова Зоя Александровна

Введение

Глава 1. Обзор и мотивация

1.1 Введение

1.2 Мультимодальное обучение

1.2.1 Контрастивное обучение для связывания текста и изображений, модель CLIP

1.2.2 Метод модуляция признаков для объединения текстов и изображений

1.2.3 Архитектуры на основе перекрестного внимания

1.3 Языковое обоснование в мультимодальных системах

1.3.1 Связь задачи языкового обоснования и

мультимодального обучения с подкреплением

1.4 Воплощенный искусственный интеллект

1.4.1 Задача следования языковым инструкциям в воплощённом ИИ

1.4.2 Интеграция больших языковых моделей в систему управления воплощёнными агентами

1.5 Задача следования языковым инструкциям

1.5.1 Эффективное обучение агентов следованию инструкциям

1.5.2 Мультимодальная интеграция восприятия и языка

1.5.3 Планирование и декомпозиция задач

1.6 Выводы

Глава 2. Постановка задачи мультимодального обучения с

подкреплением в динамической среде

2.1 Требования к мультимодальной среде и агенту

2.2 Архитектурный подход к построению мультимодального агента . 45 2.2.1 Структура модулей в рамках используемого

архитектурного подхода

2.3 Постановка задачи

2.3.1 Следование языковым инструкциям как целе-условное

обучение с подкреплением

2.3.2 Следование инструкциям с использованием планов

2.3.3 Интерпретация инструкций и планирование

2.4 Протокол валидации агента

2.5 Выводы

Глава 3. CrafText: бенчмарк для мультимодального обучения с

подкреплением в динамических условиях

3.1 Мультимодальные среды для оценки агентов

3.1.1 Критерии оценки текстовой составляющей среды

3.1.2 Критерии оценки механики среды

3.1.3 Сравнение мультимодальных сред

3.2 Бенчмарк CrafText

3.2.1 Датасет

3.2.2 Среда

3.3 Эксперименты в среде CrafText

3.4 Выводы

Глава 4. Следование языковым инструкциям в

мультимодальных средах как задача целе-условного RL

4.1 Фреймворк IGOR

4.1.1 Техники обучения языкового модуля

4.1.2 Менеджер задач

4.1.3 Обучение модуля стратегии

4.1.4 Эксперименты в среде IGLU

4.1.5 Эксперименты в среде CrafText-light

4.2 Фреймворк SuperIgor

4.2.1 Генерация планов LLM без экспертного датасета

4.2.2 Обучение модуля стратегии

4.2.3 Оценка качества планов

4.2.4 Дообучение языковой модели

4.2.5 Эксперименты в среде CrafText

4.3 Выводы

Глава 5. Неопределённость восприятия ИИ-агента в реальном

мире и пути её преодоления

5.1 Типы неопредленностей в инструкциях

5.2 Разрешение неопредленности инструкций для моделей детекции

и сегментации, метод Ке&атт§

5.2.1 Описание Метода

5.2.2 Эксперименты

5.3 Выводы

Заключение

Словарь терминов

Список литературы

Список рисунков

Список таблиц

Приложение А. Описание сред с примерами инструкций

Введение диссертации (часть автореферата) на тему «Исследование и разработка методов и алгоритмов мультимодального обучения с подкреплением в сложных динамических средах»

Введение

Современное развитие искусственного интеллекта(ИИ) характеризуется бурным прогрессом в двух ключевых направлениях — моделях компьютерного зрения (КЗ/CV) и больших языковых моделях (БЯМ/LLM). За последние годы каждое из них продемонстрировало значительные достижения: языковые модели стали эффективно понимать и генерировать текст, а модели компьютерного зрения — извлекать и интерпретировать сложные визуальные представления.

На этом фоне всё большее внимание уделяется их интеграции в рамках мультимодального обучения, которое стремится объединить сильные стороны обоих подходов. Однако, несмотря на заметные успехи таких моделей, как CLIP , Flamingo и GPT-4V, их применение по-прежнему в значительной степени ограничивается задачами интерпретации входных данных — например, описанием изображений, классификацией визуального контента или ответами на вопросы. Иначе говоря, они в основном фокусируются на восприятии и понимании информации, но не переходят к активному взаимодействию со средой, где требуется последовательное принятие решений и целенаправленное поведение.

Реализация таких способностей предполагает выход за пределы пассивного анализа данных и требует от модели способности к планированию, адаптации и обучению на основе проб и ошибок — компонентов, традиционно ассоциируемых с системами принятия решений, в том числе с подходами обучения с подкреплением. Таким образом, решение задач, ориентированных на активное поведение в сложной и изменяющейся среде, требует принципиально нового класса моделей, способных интегрировать восприятие, язык и поведенческие стратегии в единую вычислительную структуру.

Эта область не просто объединяет методы из трёх доменов, а ставит новые задачи, связанные с тем, как языковая информация может управлять действием, как восприятие влияет на интерпретацию инструкций, и как в условиях неопределённости и частичного наблюдения возможно обучение к адаптивному поведению.

В настоящее время в данной области можно выделить три ключевых направления исследования: языковое обоснование(language grounding),

воплощённый искусственный интеллект(embodied AI) и следование инструкциям.

Языковое обоснование рассматривает связь между абстрактными языковыми выражениями и конкретными объектами мира, включая их аффордансы — свойства и возможности для взаимодействия. Исследователи, такие как Dimitri Coelho Mollo и David R. Traum, подчеркивают, что полноценное понимание языка невозможно без его укоренения в опыте. Ключевую роль здесь играет обратная связь, действующая по принципу обучения с подкреплением: она позволяет моделям корректировать свои внутренние представления, соотнося их с эмпирической реальностью и закрепляя те интерпретации, которые оказываются практически значимыми (Victor Zhong, Felix Hill).

Второе направление — воплощённый искусственный интеллект, подразумевающий наличие у агента физического тела (или его симуляции), сенсорной системы и ограничений на действия. В отличие от пассивных моделей, воплощённый агент не только интерпретирует информацию, но и активно взаимодействует с окружающей средой, что требует учёта физического контекста при построении моделей поведения. В исследованиях Michael Ahn и Mohit Shridhar, посвящённых задачам робототехнической навигации и манипуляции, подчёркивается значимость интеграции визуальных наблюдений и языковых подсказок, генерируемых крупными языковыми моделями. Такие модели не просто хранят обширные знания о мире, но и способны производить пошаговые инструкции, объяснения или корректирующие указания, которые направляют действия агента в сложной среде. Благодаря этому воплощённые агенты получают возможность соединять сенсомоторный опыт с высокоуровневыми стратегиями, сформулированными в языке.

Третье направление связано со следованием инструкциям, то есть выполнением команд, заданных на естественном языке. В работах Chevalier-Boisvert, Jiajun Xi и Austin W. Hanjie рассматривается, как можно обучать агента в режиме онлайн-обучения с подкреплением, где он непосредственно в процессе взаимодействия со средой осваивает связывание текстовых и визуальных модальностей без отдельного этапа предобучения. Такой подход позволяет агенту интерпретировать визуальное состояние через призму инструкции и направленно двигаться к решению поставленной задачи. Работы Logeswaran и Zihao Wang демонстрируют, что внедрение

явных механизмов планирования повышает способность агента выполнять инструкции и одновременно способствует более эффективной адаптации к новым целям и ситуациям, выходящим за рамки обучающего распределения.

Несмотря на очевидную важность этих задач, большинство существующих работ решают их в упрощённых условиях: среда статична, набор возможных целей ограничен, агенту доступны полные наблюдения, а взаимодействие с миром редко выходит за пределы дискретных шагов. Такой упрощённый подход позволяет получить метрики качества и провести обучение, но оказывается неприменимым в более реалистичных сценариях. Между тем, именно динамичность среды, наличие неполной информации, необходимость адаптации и генерализации подчеркивают ценность интеграции языковых и визуальных моделей с архитектурами принятия решений.

В связи с этим настоящая работа фокусируется на разработке методов мультимодального обучения с подкреплением в динамических средах, где агент обучается действовать, опираясь одновременно на визуальные наблюдения и инструкции на естественном языке. Основной целью является построение систем, способных обобщать знания на новые задачи, опираясь на языковые описания, эффективно использовать визуальное восприятие для планирования действий, и адаптироваться к изменяющимся условиям среды. Такая интеграция, является ключом к построению универсальных и гибких агентов, способных работать в открытых мирах, где заранее невозможно задать полный набор целей или предусмотреть все ситуации.

Учитывая вышеупомянутые задачи и возможности, были поставлены цель и задачи исследования.

Целью данного исследования разработка систем интегрирующих языковое и визуальное восприятие для принятия решений и планирования, с возможностью адаптации к изменяющимся условиям и обобщения на ранее не решённые задачи.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Проанализировать современные подходы и существующие среды, предназначенные для мультимодального обучения с подкреплением.

2. Разработать бенчмарк, позволяющий обучать и оценивать модели принятия решений в динамических и стохастических условиях.

Бенчмарк должен предусматривать: мультимодальную среду как с визуальными, так и текстовыми наблюдениями (инструкциями); задачи, требующие обобщения на новые ситуации; метрики оценки как эффективности принятия решений (насколько точно агент следует инструкциям), так и способности к интерпретации языка (насколько устойчиво агент справляется с разнообразными формулировками одной и той же задачи).

3. Предложить подходы, позволяющие интегрировать языковые и визуальные сигналы для эффективного принятия решений в динамических условиях; демонстрирующие способность обобщения на новые текстовые наблюдения; а также демонстрирующие способность обобщения на новые цели.

4. Предложить подходы повышения качества восприятия визуальных наблюдений в фотореалистичных средах, в условиях неопредленности инструкций.

Научная новизна:

1. Разработан бенчмарк для валидации мультимодальных агентов обучения с подкреплением в динамических средах, включающий корпус вариативных инструкций, функции их проверки и протокол оценки результатов. Предложенный бенчмарк обеспечивает комплексную оценку мультимодальных моделей как по уровню понимания языковых инструкций, так и по способности действовать в динамической среде и обобщать знания на новые задачи.

2. Впервые предложен архитектурный подход к построению мультимодальных агентов, предусматривающий разделение обработки визуальных наблюдений, текстовых данных, их интеграции и стратегического планирования, что обеспечивает гибкость и масштабируемость обучения в динамических условиях.

3. Разработан метод обучения мультимодальных агентов, реализующий предложенный архитектурный подход: языковой модуль преобразует инструкции в планы из подзадач, что упрощает обработку текстовых наблюдений и позволяет применять техники обучения на основе учебного плана (curriculum learning) для повышения эффективности в динамичных средах.

4. Предложен метод, обеспечивающий сквозное (end-to-end) обучение мультимодальных агентов в рамках предлагаемого архитектурного подхода. Метод позволяет автоматически строить и итеративно улучшать планы по инструкциям без экспертной разметки, что делает возможным полноценное использование обучения через подзадачи в динамических средах.

5. Предложен метод, направленный на повышение качества восприятия визуальных наблюдений мультимодальным агентом за счёт адаптивной переформулировки инструкций в случае их неопределённости.

Теоретическая значимость. Предложенный бенчмарк предоставляет возможность комплексной оценки мультимодальных моделей обучения с подкреплением — как в аспекте понимания языковых инструкций, так и в способности действовать в динамической среде и обобщать знания на новые задачи. Оценка успешности выполнения синонимичных инструкций, включённых в тренировочную выборку, позволяет судить о глубине языкового понимания модели. В то же время результативность на отложенной выборке с новыми задачами служит индикатором её способности к генерализации.

Бенчмарк включает сравнение ряда современных подходов, что позволяет получить целостное представление о текущем состоянии исследований в данной области. В частности, были проанализированы передовые методы, такие как Dynalang, FiLM и PPO, что позволило выявить их ключевые преимущества и ограничения применительно к поставленной задаче.

Разработанный метод IGOR демонстрирует, что интеграция крупных языковых моделей и декомпозиция инструкций на последовательность подзадач существенно повышают эффективность решения. Результаты экспериментов показывают, что данный подход позволяет не только справляться с языковой вариативностью, но и улучшает способность к обобщению и действию в ранее не встречавшихся ситуациях. Предложенный метод SuperIGOR устраняет недостатки IGOR, позволяя сохранять эффективность и гибкость без необходимости экспертного датасета планов. Его теоретическая значимость состоит в том, что он демонстрирует, как можно осуществлять связывание языковых моделей и механики среды за счёт обратной связи от агента: качество сгенерированных планов оценивается через их реальную выполнимость, и на основе этой оценки происходит их корректировка. Такой подход открывает

возможность построения более универсальных методов обучения агентов по инструкциям в динамических мультимодальных средах.

Вместе с тем, результаты, полученные с использованием алгоритма Reframing, расширяют представление о функциональности крупных языковых моделей в контексте мультимодального обучения с подкреплением. Если в методе IGOR они выступают как инструмент высокоуровневого планирования, то здесь демонстрируется их потенциал в улучшении визуального восприятия. В частности, модель обучается переформулировать входные инструкции с учётом отклика от детектора объектов, повышая тем самым точность его работы. Такой механизм особенно полезен в условиях реалистичных наблюдений, характерных для задач роботизированной навигации. Эксперименты показывают, что при неудачных исходных формулировках перефразирование может привести к значительному приросту качества детекции — до 0.7-0.8 IoU, что подчеркивает практическую ценность взаимодействия языковых и визуальных модулей.

Практическая значимость. Предложенный бенчмарк обладает высокой прикладной ценностью и может использоваться для оценки агентов в условиях, приближенных к реальным. В отличие от упрощённых сред, он позволяет проверять работу моделей в более сложной и частично наблюдаемой обстановке, где требуется одновременно учитывать динамику среды, языковое разнообразие и необходимость принятия решений. Особенностью бенчмарка является многоаспектная система оценки: задачи включают строительство, локализацию, выполнение условий, достижение целей и работу с временными зависимостями. Кроме того, предусмотрено три уровня оценки: на тренировочной выборке (способность действовать в среде), на тестовой выборке с переформулированными инструкциями (понимание языка), и на отложенной выборке с новыми задачами (способность к генерализации). Такая структура позволяет более точно оценивать поведение агентов в разных ситуациях и выявлять их сильные и слабые стороны.

Предложенный метод IGOR демонстрирует, как можно использовать крупные языковые модели для декомпозиции задач и построения плана действий. Благодаря своей архитектуре подход легко адаптируется к различным сценариям мультимодального принятия решений, где важно интерпретировать сложные инструкции и разворачивать их в последовательность шагов. Это делает его применимым не только в игровой

среде, но и в реальных задачах, где требуется гибкое управление агентом через язык.

Практическая значимость усиливается в методе SuperlGOR. В нём предложен алгоритм генерации планов в zero-shot режиме, то есть без предварительной настройки на конкретной среде и без необходимости дополнительно формировать экспертный датасет планов. Более того, разработан фреймворк для улучшения качества этих планов за счёт оценки производительности агента и последующей корректировки стратегий. Такой подход снижает затраты на ручную разработку и расширяет возможности применения в динамических и сложных условиях.

Метод Reframing, в свою очередь, имеет прикладное значение в задачах, где важны точность и устойчивость визуального восприятия. Он может быть применён, например, в навигации и робототехнике, где агенту необходимо интерпретировать команды пользователя и взаимодействовать с физической средой. Использование языковой модели для адаптации инструкций под особенности визуальных детекторов позволяет существенно повысить точность сегментации и распознавания. Это особенно актуально в случаях, когда исходная инструкция плохо интерпретируется моделью восприятия: мы показываем, что автоматическое перефразирование может привести к росту точности детекции до 0.7-0.8 IoU. Такой механизм может применяться и в других областях, где качество визуального распознавания критично — например, в автономных системах, системах помощи, логистике и промышленной автоматизации.

Методология и методы исследования. Разработанные алгоритмы сочетают методы обучения с подкреплением, трансформерные языковые модели и современные визуальные архитектуры для решения задач интерпретации инструкций, генерализации поведения и настройки пользовательских запросов в мультимодальных средах. В качестве базового метода обучения с подкреплением во всех исследованиях использовался алгоритм Proximal Policy Optimization (PPO), адаптированный под конкретную задачу. Для обучения агента в целеориентированой постановке(метод IGOR) применялся подход на основе учебного плана, при котором вероятность выбора задач адаптируется на основе успешности агента. В CrafText, помимо PPO, была протестирована модель Dynalang, основанная на архитектуре

DreamerV3, обучающая агента предсказывать будущие состояния на основе текста и визуальных наблюдений.

Во всех работах языковая модель представлена предобученными трансформерами объёма от 3B до 7B параметров, включая DistilBERT, Flan-T5, LLaMA2-7B, Qwen2.5-7B. Выбор конкретной модели осуществлялся эмпирически, по результатам работы в режимах по запросу без примеров(zero-shot) и с несколькими примерами(few-shot) на целевой задаче — разметка инструкций, генерация подцелей или переформулирование запросов. В работе Reframing использовались детекторы открытого словаря (GroundingDINO, YOLO-World, YOLO-E) в качестве моделей обратной связи, на основе которых рассчитывалась награда для оптимизации языковой модели.

Качество работы агентов и моделей оценивалось с использованием Success Rate (SR) в задачах выполнения инструкций (CrafText, IGOR) и Intersection-over-Union (IoU) в задачах визуального распознавания и сегментации (Reframing). Во всех случаях производился анализ как на тренировочных, так и на тестовых подмножествах, включая случаи генерализации на новые формулировки и объекты. В исследованиях проводились многократные запуски с фиксированными сидами и исследование с исключением компонентов (ablation study) для оценки вклада каждой стадии обучения (SFT, RL, планирование, переформулировка и др.).

Все алгоритмы реализованы на Python 3 с использованием фреймворков JAX, PyTorch и Transformers. Визуализация и логирование результатов экспериментов выполнялись с использованием Weights and Biases (wandb) и Matplotlib. Обучение всех моделей проводилось на видеокартах NVIDIA A100 и H100, с использованием до 256 параллельных симуляций в задачах обучения агентов и до 50,000 шагов RL-оптимизации в задачах дообучения языковых моделей.

Основные положения, выносимые на защиту:

1. Бенчмарк CrafText для обучения и валидации мультимодальных агентов обучения с подкреплением в динамических средах представляет собой набор задач, включающий как визуальные, так и текстовые наблюдения, а также метрики оценки качества выполнения и интерпретации инструкций.

2. Метод IGOR, реализующий предложенный архитектурный подход, использует преобразование инструкций в планы из подзадач и

их выполнение мультимодальным RL-агентом, что повышает устойчивость и результативность при частичном наблюдении.

3. Метод SuperlGOR, развивающий архитектурный подход за счёт сквозного (end-to-end) обучения, обеспечивает автоматическое формирование планов без экспертной разметки и их итеративное улучшение на основе обратной связи от среды, обеспечивая согласованность между языковой моделью и действиями агента.

4. Метод Reframing повышает качество работы мультимодального агента за счёт адаптивной переформулировки инструкций в случае их неопределённости, улучшая обработку наблюдений моделями сегментации.

Достоверность полученных результатов обеспечивается многократным проведением каждого эксперимента и последующим статистическим анализом, позволяющим оценить значимость наблюдаемых эффектов. Дополнительные эксперименты с исключением отдельных компонентов подтверждают вклад этих элементов в итоговые показатели. Сравнение предложенных моделей с актуальными базовыми методами подтверждает их корректность и надежность. Реализации алгоритмов, моделей и экспериментов опубликованы в виде библиотек с открытым исходным кодом и доступны в свободном доступе в интернете.

Апробация работы. Основные результаты диссертации изложены в 5 печатных изданиях, индексируемых Web of Science и Scopus, 2 из которых изданы в журналах списка К1 и входят в собственный перечень МФТИ..

Материалы диссертационной работы были представлены на международных конференциях:

— конференция ECAI (European Conference on Artificial Intelligence), 2024, Сантьяго-де-Компостела, Испания;

— конференция ACL (Annual Meeting of the Association for Computational Linguistics), 2025, Вена, Австрия.

Полученные результаты и знания использовались в преподавании курсов по искусственному интеллекту:

— Курс "Машинное обучение" (МФТИ, 2023, 2024), разработка и проведение практических занятий,проверка домашних практических заданий.

- Курс "Обучение с подкреплением" (Центр "ПУСК 2024), разработка и проведение практических и лекционных занятий.

Личный вклад. В работе [1] представлен обзор существующих мультимодальных сред, разработана их классификация, а также введены качественные и количественные метрики для их оценки. В работе [2] предложен, реализован и протестирован бенчмарк CrafText, в котором также реализованы и протестированы базовые модели. Проведён анализ результатов обучения этих моделей в рамках бенчмарка. В работе [3] разработан и протестирован алгоритм IGOR, а также проведено его сравнение с существующими методами в двух мультимодальных средах: CrafText-light и IGLU. На основе полученных результатов проанализированы свойства и преимущества предложенного метода. В работах [4; 5] проведён анализ влияния неопределённости инструкций на агента, работающего в мультимодальных средах, и предложен подход Reframing, направленный на устранение неопределённости для моделей детекции и сегментации, проведены эксперименты, показавшие эффективность данного подхода.

Содержание диссертации соответствует специальности 1.2.1. Искусственный интеллект и машинное обучение., в частоности, по пунктам:

2. Исследования в области оценки качества и эффективности алгоритмических и программных решений для систем искусственного интеллекта и машинного обучения. Методики сравнения и выбора алгоритмических и программных решений при многих критериях.

4. Разработка методов, алгоритмов и создание систем искусственного интеллекта и машинного обучения для обработки и анализа текстов на естественном языке, для изображений, речи, биомедицины и других специальных видов данных.

7. Разработка специализированного математического, алгоритмического и программного обеспечения систем искусственного интеллекта и машинного обучения. Методы и средства взаимодействия систем искусственного интеллекта с другими системами и человеком-оператором.

Объем и структура работы. Диссертация состоит из введения, 5 глав, заключения и 1 приложения. Полный объём диссертации составляет 145 страниц, включая 16 рисунков и 7 таблиц. Список литературы содержит 97 наименований.

Глава 1. Обзор и мотивация 1.1 Введение

Мультимодальная обработка данных рассматривает, как системы искусственного интеллекта могут интегрировать разнородные источники информации — изображения, текст, звук, сенсорные данные. В последние годы интерес к мультимодальным моделям резко возрос: работы, такие как CLIP, GPT-4V, Gemini, продемонстрировали возможности объединения визуальных и языковых сигналов для решения широкого спектра задач восприятия и генерации. Однако простого анализа мультимодальных данных оказывается недостаточно: для построения интеллектуальных систем нового поколения важно не только интерпретировать разнородные входные сигналы, но и использовать их для планирования и принятия решений во взаимодействии с динамическим миром. Именно эту задачу решает мультимодальное обучение с подкреплением (Multimodal Reinforcement Learning, MMRL), в котором агент интерпретирует мультимодальные наблюдения и использует их для достижения поставленных целей.

В этой работе будут рассматриваться четыре теоретических блока, которые формируют основу MMRL:

1. Первый блок — раздел 1.2 — посвящён мультимодальному кодированию и разбору таких архитектур, как CLIP, FiLM, FLAVA и Flamingo. Эти модели демонстрируют базовые подходы к интеграции сигналов из разных источников.

2. Второй блок — раздел 1.3 — посвящён задаче языкового обоснования: рассматривается понятие языкового обоснования, его разновидности и связь с обучением с подкреплением. Здесь закладывается фундамент для понимания того, как язык может выступать интерфейсом между абстрактными командами и конкретными действиями.

3. Третий блок — раздел 1.4 — посвящён исследованиям в области воплощённого искусственного интеллекта и анализу мультимодального обучения в его рамках. Этот блок позволяет рассмотреть MMRL

в контексте агентов, которые имеют «тело» и взаимодействуют с окружающей средой через сенсоры и эффекторные каналы.

4. Четвёртый блок — раздел 1.5 — рассматривает задачу следования языковым инструкциям как одну из ключевых постановок мультимодального обучения с подкреплением, где язык используется для задания целей агенту.

Важно отметить, что ММЯЬ не сводится к задаче мультимодального кодирования: ключевое отличие заключается в необходимости принимать решения и действовать на основе интегрированных сигналов. При этом постановка ММЯЬ может включать языковое обоснование, но не всегда — что может показаться контринтуитивным. Дело в том, что агент способен оперировать мультимодальными наблюдениями и целями без прямой привязки к языку, хотя именно через язык задачи чаще всего формулируются для человека. Аналогично, ММЯЬ можно рассматривать как надстройку над вопллащенным ИИ, где агент имеет «тело» и взаимодействует с миром через сенсоры, но возможны и более абстрактные постановки без явного связывания. Наконец, задача следования инструкциям тесно связана с ММЯЬ, но также не совпадает с ним: выполнение инструкций может быть и немультимодальным (например, чисто текстовым), в то время как ММЯЬ подразумевает интеграцию разных источников информации.

Таким образом, ММЯЬ формируется как синтетическая область на стыке нескольких направлений, заимствуя у каждого методы и идеи, но при этом выдвигая собственные исследовательские вызовы. В данной работе рассматривается как общая теория этих областей, так и отдельные исследования внутри каждой из них, наиболее явно связанные с постановкой ММЯЬ.

1.2 Мультимодальное обучение

Основная цель обработки мультимодальных данных [6] заключается в создании единого пространства признаков, где данные из разных модальностей могут быть сопоставлены, проанализированы и использованы для выполнения конкретных задач. Для достижения этой цели разработаны различные подходы

Список литературы диссертационного исследования кандидат наук Воловикова Зоя Александровна, 2025 год

Список литературы

1. Volovikova Z. A, Kuznetsova M. A., Skrynnik A. A., Panov A. I. A Review of Multimodal Environments for Reinforcement Learning // Proceedings of the Russian Academy of Sciences: Mathematics, Informatics, and Control Processes. — 2024. — Т. 520, № 2. — С. 124—130. — DOI: 10 . 1134 / S1064562424602166.

2. Volovikova Z, Gorbov G., Kuderov P., Panov A., Skrynnik A. CrafText Benchmark: Advancing Instruction Following in Complex Multimodal Open-Ended World. — 2025. — July. — DOI: 10.18653/v1 / 2025. acl-long.1267. —URL: https://aclanthology.org/2025.acl-long.1267/.

3. Volovikova Z, Skrynnik A., Kuderov P., Panov A. I. Instruction following with goal-conditioned reinforcement learning in virtual environments // ECAI 2024. — IOS Press, 2024. — P. 650—657. — DOI: 10.3233/FAIA240545.

4. Ivanova A., Eva B., Volovikova Z, Kovalev A., Panov A. AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment // Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) / ed. by W. Che, J. Nabende, E. Shutova, M. T. Pilehvar. — Vienna, Austria : Association for Computational Linguistics, 07/2025. — P. 33216—33241. — DOI: 10.18653/v1/2025.acl-long.1593. — URL: https: //aclanthology.org/2025.acl-long.1593/.

5. Avshalumov M., Volovikova Z, Yudin D., Panov A. Reframing: Detector-Specific Prompt Tuning for Enhancing Open-Vocabulary Object Detection // International Conference on Hybrid Artificial Intelligence Systems. — Springer. 2024. — P. 128—140. — DOI: 10.1007/978-3-031-74186-9_11.

6. Liang P. P., Zadeh A., Morency L.-P. Foundations & trends in multimodal machine learning: Principles, challenges, and open questions // ACM Computing Surveys. — 2024. — Vol. 56, no. 10. — P. 1—42. — DOI: 10.1145/3656580.

7. Munikoti S., Stewart I., Horawalavithana S., Kvinge H., Emerson T., Thompson S. E., Pazdernik K. Generalist multimodal ai: A review of architectures, challenges and opportunities // arXiv preprint arXiv:2406.05496. — 2024. — DOI: 10 . 48550 / arXiv . 2406 . 05496. — URL: https://arxiv.org/abs/2406.05496 (visited on 02/02/2025).

8. Radford A., Kim J. W, Hallacy C., Ramesh A., Goh G., Agarwal S., Sastry G., Askell A., Mishkin P., Clark J., [et al.]. Learning transferable visual models from natural language supervision // International conference on machine learning. — PmLR. 2021. — P. 8748—8763. — DOI: 10.48550/ arXiv.2103.00020.

9. Tu W., Deng W., Gedeon T. A closer look at the robustness of contrastive language-image pre-training (clip) // Advances in Neural Information Processing Systems. — 2023. — Vol. 36. — P. 13678—13691. — DOI: 10.48550/arXiv.2402.07410.

10. Perez E., Strub F., De Vries H., Dumoulin V., Courville A. Film: Visual reasoning with a general conditioning layer // Proceedings of the AAAI conference on artificial intelligence. Vol. 32. — 2018. — DOI: 10.48550/ arXiv.1709.07871.

11. Singh A., Hu R., Goswami V., Couairon G., Galuba W, Rohrbach M., Kiela D. Flava: A foundational language and vision alignment model // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2022. — P. 15638—15650. — DOI: 10.1109/CVPR52688. 2022.01519.

12. Dosovitskiy A., Beyer L., Kolesnikov A., Weissenborn D., Zhai X., Unterthiner T., Dehghani M., Minderer M., Heigold G., Gelly S., [et al.]. An image is worth 16x16 words: Transformers for image recognition at scale // arXiv preprint arXiv:2010.11929. — 2020. — DOI: 10.48550/arXiv.2010. 11929. — URL: https://arxiv.org/abs/2010.11929 (visited on 06/21/2024).

13. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) / ed. by J. Burstein, C. Doran, T. Solorio. — Minneapolis,

Minnesota : Association for Computational Linguistics, 06/2019. — P. 4171—4186. — DOI: 10 . 18653/v1 / N19- 1423. — URL: https : / / aclanthology.org/N19-1423/.

14. He K., Chen X., Xie S., Li Y, Dollar P., Girshick R. Masked autoencoders are scalable vision learners // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. — 2022. — P. 16000—16009. — DOI: 10.1109/CVPR52688.2022.01553.

15. Wang P., Wang S., Lin J., Bai S., Zhou X., Zhou J., Wang X., Zhou C. ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities // arXiv preprint arXiv:2305.11172. — 2023. — DOI: 10.48550/ARXIV.2305.11172. — URL: https://arxiv.org/abs/2305.11172 (visited on 03/07/2024).

16. Liu S., Zeng Z, Ren T., Li F., Zhang H., Yang J., Jiang Q., Li C., Yang J., Su H., [et al.]. Grounding dino: Marrying dino with grounded pre-training for open-set object detection // European Conference on Computer Vision. — Springer. 2024. — P. 38—55. — DOI: 10.48550/arXiv.2303.05499.

17. Gu X., Lin T.-Y, Kuo W, Cui Y. Open-vocabulary object detection via vision and language knowledge distillation // arXiv preprint arXiv:2104.13921. — 2021. — DOI: 10.48550/arXiv.2104.13921. — URL: https://arxiv.org/abs/ 2104.13921 (visited on 01/14/2025).

18. Mollo D. C., Milliere R. The vector grounding problem // arXiv preprint arXiv:2304.01481. — 2023. — DOI: 10.48550/arXiv. 2304.0148. — URL: https://arxiv.org/abs/2304.01481 (visited on 04/03/2023).

19. Mollo D. C, Milliere R. The Vector Grounding Problem. — 2025. — DOI: 10.48550/arXiv.2304.01481. — arXiv: 2304.01481 [cs.CL]. — URL: https: //arxiv.org/abs/2304.01481 (visited on 01/15/2025).

20. Havlik V. Meaning and understanding in large language models // Synthese. — 2024. — Vol. 205, no. 1. — P. 9. — DOI: 10.1007/s11229-024-04878-4.

21. Li J., Kementchedjhieva Y, S0gaard A. Do Vision and Language Models Share Concepts? A Vector Space Alignment Study // Transactions of the Association for Computational Linguistics. — 2023. — DOI: 10.1162/tacl_a_00698.

22. Kahneman D. Thinking, fast and slow // Farrar, Straus and Giroux. — 2011.

23. Hill F., Tieleman O, Von Glehn T., Wong N., Merzic H., Clark S. Grounded language learning fast and slow // arXiv preprint arXiv:2009.01719. — 2020. — DOI: 10.48550/arXiv.2009.0171. — URL: https://arxiv.org/ abs/2009.01719 (visited on 09/04/2024).

24. Hanjie A. W., Zhong V. Y, Narasimhan K. Grounding language to entities and dynamics for generalization in reinforcement learning // International Conference on Machine Learning. — PMLR. 2021. — P. 4051—4062. — DOI: 10.48550/arXiv.2101.07393.

25. Zhong V., Rocktaschel T, Grefenstette E. Rtfm: Generalising to new environment dynamics via reading // ICLR. — ICLR. 2020. — P. 1—17. — DOI: 10.48550/arXiv.1910.08210.

26. Rotenberg V. S. Moravec's paradox: Consideration in the context of two brain hemisphere functions // Activitas Nervosa Superior. — 2013. — Vol. 55, no. 3. — P. 108—111. — DOI: 10.1007/BF03379600.

27. Brooks R. A. Intelligence without representation // Artificial intelligence. — 1991. — Vol. 47, no. 1—3. — P. 139—159. — DOI: 10.1016/0004-3702(91) 90053-M.

28. Kober J., Bagnell J. A., Peters J. Reinforcement learning in robotics: A survey // The International Journal of Robotics Research. — 2013. — Vol. 32, no. 11. — P. 1238—1274. — DOI: 10.1177/0278364913495721.

29. Haarnoja T, Zhou A., Abbeel P., Levine S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor // ICML. — 2018. — DOI: 10.48550/arXiv.1801.01290.

30. Levine S., Finn C, Darrell T, Abbeel P. End-to-end training of deep visuomotor policies // Journal of Machine Learning Research. Vol. 17. — 2016. — P. 1—40. — DOI: 10.48550/arXiv.1504.00702.

31. Kolve E., Mottaghi R., Han W, VanderBilt E., Weihs L., Herrasti A., Deitke M, Ehsani K., Gordon D., Zhu Y, [et al.]. Ai2-thor: An interactive 3d environment for visual ai // arXiv preprint arXiv:1712.05474. — 2017. — DOI: 10.48550/arXiv.1712.05474. — URL: https://arxiv.org/abs/1712.05474 (visited on 06/21/2024).

32. Anderson P., Wu Q., Teney D., Bruce J., Johnson M., Gould S., Hengel A. van den. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments // CVPR. — 2018. — DOI: 10.1109/CVPR.2018.00387.

33. Beattie C., Leibo J. Z, Teplyashin D., Ward T., Wainwright M., Kuttler H., Lefrancq A., Green S., Valdes V., Sadik A., [et al.]. Deepmind lab // arXiv preprint arXiv:1612.03801. — 2016. — DOI: 10.48550/arXiv.1612.03801. — (Visited on 11/21/2024).

34. Xia X. Interaction recognition and intervention based on context feature fusion of learning behaviors in interactive learning environments // Interactive Learning Environments. — 2023. — Vol. 31, no. 4. — P. 2033—2050. — DOI: 10.1080/10494820.2021.1871632.

35. Duan J., Yu S., Tan H. L, Zhu H, Tan C. A survey of embodied ai: From simulators to research tasks // IEEE Transactions on Emerging Topics in Computational Intelligence. — 2022. — Vol. 6, no. 2. — P. 230—244. — DOI: 10.1109/TETCI.2022.3141105.

36. Shridhar M., Thomason J., Gordon D., Bisk Y., Han X., Mottaghi R., Zettlemoyer L., Fox D. ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks // CVPR. — 2020. — DOI: 10.1109/ CVPR42600.2020.01075.

37. Ahn M, Brohan A., Chebotar Y., [et al.]. Do As I Can, Not As I Say: Grounding Language in Robotic Affordances. — 2022. — DOI: 10.48550/ arXiv.2204.01691. — arXiv: 2204.01691 [cs.RO].

38. Reed S., Freitas N. de, [et al.]. A Generalist Agent. — 2022. — DOI: 10. 48550/arXiv.2205.06175. — arXiv: 2205.06175 [cs.LG]. — (Visited on 06/21/2024).

39. Ha D, Schmidhuber J. World models // NeurIPS. — 2018. — DOI: 10. 48550/arXiv.1803.10122.

40. al. O. et. Solving Rubik's Cube with a Robot Hand // arXiv preprint arXiv:1910.07113. — 2019. — DOI: 10.48550/arXiv. 1910.07113. — URL: https://arxiv.org/abs/1910.07113 (visited on 06/21/2024).

41. Han D, McInroe T., Jelley A., Albrecht S. V., Bell P., Storkey A. Llm-personalize: Aligning llm planners with human preferences via reinforced self-training for housekeeping robots // arXiv preprint arXiv:2404.14285. — 2024. — DOI: 0.48550/arXiv.2404.14285. — URL: https://arxiv.org/abs/ 2404.14285 (visited on 06/01/2024).

42. Wang Z, Cai S., Chen G., Liu A., Ma X., Liang Y. Describe, explain, plan and select: Interactive planning with large language models enables open-world multi-task agents // arXiv preprint arXiv:2302.01560. — 2023. — DOI: 10. 48550/arXiv.2302.01560. — URL: https://arxiv.org/abs/2302.01560 (visited on 06/04/2023).

43. Zhang J., Lampe T., Abdolmaleki A., Springenberg J. T., Riedmiller M. Game On: Towards Language Models as RL Experimenters // arXiv preprint arXiv:2409.03402. — 2024. — DOI: 10.48550/arXiv. 2409.03402. — URL: https://arxiv.org/abs/2409.03402 (visited on 09/01/2024).

44. Shukla Y., Gao W, Sarathy V., Velasquez A., Wright R., Sinapov J. Lgts: Dynamic task sampling using llm-generated sub-goals for reinforcement learning agents // arXiv preprint arXiv:2310.09454. — 2023. — DOI: 10. 48550/arXiv.2310.09454. — URL: https://arxiv.org/abs/2310.09454 (visited on 10/23/2023).

45. Li S., Puig X., Paxton C., Du Y., Wang C., Fan L., Chen T., Huang D.-A., Akyurek E., Anandkumar A., [et al.]. Pre-trained language models for interactive decision-making // Advances in Neural Information Processing Systems. — 2022. — Vol. 35. — P. 31199—31212. — DOI: 10.48550/ arXiv.2202.01771. — (Visited on 03/05/2025).

46. Dalal M., Chiruvolu T., Chaplot D., Salakhutdinov R. Plan-seq-learn: Language model guided rl for solving long horizon robotics tasks // arXiv preprint arXiv:2405.01534. — 2024. — DOI: 10.48550/arXiv.2405.01534. — URL: https://arxiv.org/abs/2405.01534 (visited on 06/11/2024).

47. Li Y. [et al.]. Competition-Level Code Generation with AlphaCode // Science. — 2022. — Vol. 378, no. 6624. — P. 1092—1097. — DOI: 10. 1126/science.abq115.

48. Yao S. [et al.]. ReAct: Synergizing Reasoning and Acting in Language Models // International Conference on Learning Representations (ICLR). — 2023. — DOI: 10.48550/arXiv.2210.03629.

49. Schick T. [et al.]. Toolformer: Language Models Can Teach Themselves to Use Tools // arXiv preprint arXiv:2302.04761. — 2023. — DOI: 10.48550/ arXiv.2302.04761. — URL: https://arxiv.org/abs/2302.04761 (visited on 11/01/2023).

50. Wei J. [et al.]. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models // Advances in Neural Information Processing Systems (NeurIPS). — 2022. — DOI: 10.48550/arXiv.2201.11903.

51. Chevalier-Boisvert M., Bahdanau D., Liskovich S., [et al.]. BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning // International Conference on Learning Representations. — 2019. — DOI: 10.48550/arXiv.1810.08272.

52. Zhang Z. [et al.]. Learning Instruction-Following Policies through Open-Ended Instruction Relabeling with Large Language Models // arXiv preprint arXiv:2501.XXXX. — 2025. — URL: https://arxiv.org/abs/2506.20061 (visited on 01/23/2025).

53. Xi Z. [et al.]. Teaching Embodied Reinforcement Learning Agents Informativeness and Diversity of Language Use // arXiv preprint arXiv:2403.XXXXX. — 2024. — DOI: 10. 48550/arXiv. 2410. 24218. — URL: https://arxiv.org/abs/2410.24218 (visited on 10/15/2024).

54. Chaplot D. S. [et al.]. Embodied Multimodal Multitask Learning // Proceedings of the AAAI Conference on Artificial Intelligence. — 2019. — DOI: 10.24963/ijcai.2020/338.

55. Lin B. Y. [et al.]. Learning to Model the World with Language // arXiv preprint arXiv:2404.XXXXX. — 2024. — DOI: 10 . 48550 / arXiv . 2308 . 01399. — URL: https://arxiv.org/abs/2308.01399 (visited on 04/20/2024).

56. Lynch C. [et al.]. Interactive Language: Talking to Robots in Real Time // arXiv preprint arXiv:2309.XXXXX. — 2023. — DOI: 10.1109/LRA.2023. 3295255. — URL: https://arxiv.org/abs/2210.06407 (visited on 10/13/2023).

57. Zhong V. [et al.]. SILG: The Multi-environment Symbolic Interactive Language Grounding Benchmark // arXiv preprint arXiv:2205.XXXXX. — 2022. — DOI: 10.48550/arXiv.2110.10661. — URL: https://arxiv.org/abs/ 2110.10661 (visited on 10/20/2024).

58. Zhang Z. [et al.]. Planning with Logical Graph-Based Language Model for Instruction Generation // arXiv preprint arXiv:2404.XXXXX. — 2024. — DOI: 10.48550/arXiv.2308.13782. — URL: https://arxiv.org/abs/2308.13782 (visited on 04/17/2024).

59. Liu X. [et al.]. Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency // arXiv preprint arXiv:2405.XXXXX. — 2024. — DOI: 10.48550/arXiv.2309.17382. — URL: https://arxiv.org/abs/2309.17382 (visited on 12/10/2024).

60. Zhang Z. [et al.]. Game On: Towards Language Models as RL Experimenters // arXiv preprint arXiv:2406.XXXXX. — 2024. — DOI: 10.48550/arXiv.2409.03402. — URL: https://arxiv.org/abs/2409.03402 (visited on 09/19/2024).

61. Matthews M., Beukman M., Ellis B., Samvelyan M., Jackson M., Coward S., Foerster J. Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning // International Conference on Machine Learning (ICML). — 2024. — DOI: 10.48550/ARXIV.2402.16801. — (Visited on 07/01/2024).

62. Crossley S. A., Salsbury T., McNamara D. S. Lexical diversity and native speaker status // TESOL Quarterly. —2010. — Vol. 44, no. 4. — P. 663—687.

63. Dale E., Chall J. S. A formula for predicting readability // Educational research bulletin. — 1948. — P. 11—20. — DOI: 10.2307/1473169.

64. Campbell W. [et al.]. Out-of-vocabulary words impact in large vocabulary continuous speech recognition // ICASSP. — IEEE. 2017. — P. 5665—5669. — DOI: 10.1109/ICASSP.2017.7953241.

65. Miller G. A. The magical number seven, plus or minus two: Some limits on our capacity for processing information // Psychological review. — 1956. — Vol. 63, no. 2. — P. 81. — DOI: 10.1037/h0043158.

66. Engle R. W. Working memory capacity as executive attention // Current directions in psychological science. — 2002. — Vol. 11, no. 1. — P. 19—23. — DOI: 10.1111/1467-8721.00160.

67. Sweller J. Cognitive load theory, learning difficulty, and instructional design // Learning and instruction. — 1994. — Vol. 4, no. 4. — P. 295—312. — DOI: 10.1016/0959-4752(94)90003-5.

68. Gibson E. Linguistic complexity: Locality of syntactic dependencies // Cognition. — 1998. — Vol. 68, no. 1. — P. 1—76. — DOI: 10.1016/S0010-0277(98)00034-1.

69. Kantharaju R. [et al.]. Measuring linguistic complexity in multi-goal instructions // Proceedings of the 60th Annual Meeting of the ACL. — 2022. — P. 245—258.

70. Sharifirad S., Matwin S. Understanding slang in natural language processing // Artificial Intelligence Review. — 2022. — Vol. 55, no. 8. — P. 5791—5825. — DOI: 10.1007/s10462-022-10112-5.

71. Carver R. P. Reading rate: Theory, research, and practical implications // Journal of Reading. — 1994. — Vol. 37, no. 5. — P. 376—386.

72. Thrun S. Lifelong learning algorithms // Learning to Learn. — Springer, 1995. — P. 181—209. — DOI: 10.1007/978-1-4615-5529-2_8.

73. Mnih V., Kavukcuoglu K., Silver D., [et al.]. Human-level control through deep reinforcement learning // Nature. — 2015. — Vol. 518, no. 7540. — P. 529—533. — DOI: 10.1038/nature14236.

74. Szepesvari C. Algorithms for Reinforcement Learning. — Morgan, Claypool Publishers, 2010. — DOI: 10.2200/S00268ED1V01Y201005AIM009.

75. Osband I., Blundell C, Pritzel A., Van Roy B. Deep exploration via bootstrapped DQN // Advances in Neural Information Processing Systems. — 2016. — DOI: 10.48550/arXiv.1602.04621.

76. Bellemare M. G., Naddaf Y, Veness J., Bowling M. The Arcade Learning Environment: An evaluation platform for general agents // Journal of Artificial Intelligence Research. Vol. 47. — 2013. — P. 253—279. — DOI: 10.1613/ jair.3912.

77. Cobbe K, Hesse C, Hilton J., Schulman J. Leveraging procedural generation to benchmark reinforcement learning // International Conference on Machine Learning. — PMLR. 2020. — P. 2048—2056. — DOI: 10.48550/arXiv.1912. 01588.

78. Tassa Y., Doron Y., Muldal A., Erez T., Li Y., Casarini F., Tassa M., Kohli P., Botvinick M, [et al.]. DeepMind Control Suite // arXiv preprint arXiv:1801.00690. — 2018. — DOI: 10.48550/arXiv. 1801.00690. — URL: https://arxiv.org/abs/1801.00690.

79. Lillicrap T. P., Hunt J. J., Pritzel A., Heess N., Erez T., Tassa Y., Silver D., Wierstra D. Continuous control with deep reinforcement learning // arXiv preprint arXiv:1509.02971. — 2015. — DOI: 10.48550/arXiv.1509.02971. — URL: https://arxiv.org/abs/1509.02971.

80. Schulman J., Wolski F., Dhariwal P., Radford A., Klimov O. Proximal policy optimization algorithms // arXiv preprint arXiv:1707.06347. — 2017. — DOI: 10.48550/ARXIV.1707.06347. — URL: https://arxiv.org/abs/1707.06347 (visited on 06/01/2024).

81. Matiisen T, Oliver A., Cohen T, Schulman J. Teacher-student curriculum learning // IEEE transactions on neural networks and learning systems. — 2019. — Vol. 31, no. 9. — P. 3732—3740. — DOI: 10.1109/TNNLS.2019. 2934906.

82. Nesterova M, Skrynnik A., Panov A. Reinforcement Learning with Success Induced Task Prioritization // Mexican International Conference on Artificial Intelligence. — Springer. 2022. — P. 97—107. — DOI: 10.1007/978-3-031-19493-1_8.

83. Raffel C., Shazeer N., Roberts A., Lee K., Narang S., Matena M., Zhou Y., Li W., Liu P. J., [et al.]. Exploring the limits of transfer learning with a unified text-to-text transformer. //J. Mach. Learn. Res. — 2020. —Vol. 21, no. 140. — P. 1—67. — DOI: 10.48550/arXiv. 1910.10683. — (Visited on 03/01/2025).

84. Zhang J., Zhao Y, Saleh M, Liu P. Pegasus: Pre-training with extracted gap-sentences for abstractive summarization // International Conference on Machine Learning. — PMLR. 2020. — P. 11328—11339. — DOI: 10.48550/ arXiv.1912.08777. — (Visited on 06/01/2025).

85. Berner C., Brockman G., Chan B., Cheung V., Dçbiak P., Dennison C., Farhi D., Fischer Q., Hashme S., Hesse C., [et al.]. Dota 2 with large scale deep reinforcement learning // arXiv preprint arXiv:1912.06680. — 2019. — DOI: 10.48550/arXiv.1912.06680. — URL: https://arxiv.org/abs/1912.06680 (visited on 04/01/2024).

86. Espeholt L., Soyer H., Munos R., Simonyan K., Mnih V., Ward T., Doron Y., Firoiu V., Harley T., Dunning I., [et al.]. Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures // International conference on machine learning. — PMLR. 2018. — P. 1407—1416. — DOI: 10.48550/ARXIV.1802.0156.

87. Petrenko A., Huang Z, Kumar T., Sukhatme G., Koltun V. Sample factory: Egocentric 3d control from pixels at 100000 fps with asynchronous reinforcement learning // International Conference on Machine Learning. — PMLR. 2020. — P. 7652—7662. — DOI: 10.48550/arXiv.2006.11751. — (Visited on 05/01/2024).

88. Hafner D. Benchmarking the Spectrum of Agent Capabilities // International Conference on Learning Representations. — 2022. — DOI: 10.48550/arXiv. 2109.06780. — URL: https://openreview.net/forum?id = 1W0z96MFEoH (visited on 03/01/2024).

89. Rafailov R., Sharma A., Mitchell E., Manning C. D., Ermon S., Finn C. Direct preference optimization: Your language model is secretly a reward model // Advances in neural information processing systems. — 2023. — Vol. 36. — P. 53728—53741.

90. Ren A. Z, Dixit A., Bodrova A., Singh S., Tu S., Brown N., Xu P., Takayama L, Xia F., Varley J., [et al.]. Robots that ask for help: Uncertainty alignment for large language model planners // arXiv preprint arXiv:2307.01928. — 2023. — DOI: 10.48550/ARXIV.2307.01928. — URL: https://arxiv.org/abs/2307.01928 (visited on 03/01/2025).

91. Zhang H, Li F, Liu S., Zhang L, Su H, Zhu J, Ni L. M, Shum H.-Y. Dino: Detr with improved denoising anchor boxes for end-to-end object detection // arXiv preprint arXiv:2203.03605. — 2022. — DOI: 10.48550/ARXIV.2203. 03605. — URL: https://arxiv.org/abs/2203.03605 (visited on 01/07/2024).

92. Cheng T, Song L., Ge Y., Liu W., Wang X., Shan Y. YOLO-World: Real-Time Open-Vocabulary Object Detection // Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR). — 2024.

93. Touvron H., Martin L., Stone K., Albert P., Almahairi A., Babaei Y., Bashlykov N., Batra S., Bhargava P., Bhosale S., [et al.]. Llama 2: Open foundation and fine-tuned chat models // arXiv preprint arXiv:2307.09288. — 2023. — DOI: 10.48550/ARXIV.2307.09288. — URL: https://arxiv.org/abs/ 2307.09288 (visited on 08/01/2024).

94. Yang A., Yang B., Zhang B., Hui B., Zheng B., Yu B., Li C., Liu D., Huang F., Wei H, [et al.]. Qwen2.5 technical report // arXiv preprint arXiv:2412.15115. — 2024. — DOI: 10 . 48550 / ARXIV. 2412 . 15115. — URL: https://arxiv.org/abs/2412.15115 (visited on 08/01/2024).

95. Wang A., Liu L, Chen H, Lin Z, Han J., Ding G. Yoloe: Real-time seeing anything // arXiv preprint arXiv:2503.07465. — 2025. — DOI: 10.48550/ ARXIV.2503.07465. — URL: https://arxiv.org/abs/2503.07465 (visited on 09/01/2024).

96. Mao J., Huang J., Toshev A., Camburu O, Yuille A. L., Murphy K. Generation and comprehension of unambiguous object descriptions // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — P. 11—20.

97. Werra L. von, Belkada Y., Tunstall L., Beeching E., Thrush T., Lambert N., Huang S. TRL: Transformer Reinforcement Learning. — 2020.

Список рисунков

1. Рисунок 1.1 — Виды языкового обоснования (Источник [18]). A) Референциальное обоснование связывает слова с конкретными объектами в мире. B) Сенсомоторное обоснование устанавливает связь между языковыми выражениями и сенсорными восприятиями или двигательными действиями. C) Реляционное обоснование отвечает за понимание отношений между объектами. D) Коммуникативное обоснование обеспечивает достижение общего понимания между агентами. E) Эпистемическое обоснование согласовывает и уточняет знания о среде.................................................................21

2. Рисунок 1.2 — Пример среды для обучения агента с языковым обоснованием (Источник [23]). На изображении показана комната, в которой агент должен установить связь между объектами и их названиями.........................25

3. Рисунок 1.3 — Пример среды MESSENGER для обучения агентов с референциальным обоснованием (Источник [24]). На изображении показана игровая сцена, где агент должен установить связи между текстовыми описаниями и динамическими объектами в среде.............................27

4. Рисунок 1.4 — Архитектура модели EMMA в среде MESSENGER (Источник [24]). Модель использует механизм внимания для связывания наблюдаемых объектов с их текстовыми описаниями, позволяя агенту адаптироваться к динамическим изменениям в среде............................................ 28

5. Рисунок 2.1 — Слева: ИИ агент — модули ИИ агента необходимы для решения задачи мультимодального обучения с подкреплением в динамической среде. Справа: Интерактивная среда, и требования к ней...................43

6. Рисунок 3.1 — Обзор бенчмарка CrafText (Источник [2]). Слева: Конвейер сбора данных — цели задаются экспертами и расширяются через GPT. Центр: Датасет с 461 целью и 3924 инструкциями. Справа: Интерактивная среда, где агент действует по наблюдению и инструкциям, а прогресс оценивается функциями проверки............................................56

7. Рисунок 3.2 — Пример инструкций для разных типов задач.............64

8. Рисунок 4.1 — Конвейер процесса принятия решения на основе фреймворка

IGOR...............................................................

9. Рисунок 4.2 — Пример перевода инструкции в план подзадач

75 83

10. Рисунок 4.3 — Сравнение эффективности подходов IGOR и Dynalang в среде Crafter с текстовыми задачами (Источник [3]). Метрика Success Rate для каждой подзадачи усреднена по всем инструкциям, включающим эту подзадачу. Столбец Total отражает общий показатель успешности для всех инструкций тестового набора..................................................85

11. Рисунок 4.4 — Принципиальная схема фреймворка SuperIgor. Фреймворк состоит из четырёх стадий: (1) языковая модель генерирует несколько вариантов плана для заданной инструкции; (2) модель стратегии обучается с помощью PPO для выполнения каждого плана в среде; (3) каждый план оценивается по доле успешных выполнений; (4) языковая модель дообучается методом Direct Preference Optimization (DPO) на основе этих оценок. Итеративный цикл постепенно улучшает как генерацию, так и исполнение планов............................................................86

12. Рисунок 4.5 — Сравнение производительности SuperIgor и базовых методов на задачах CrafText (Атомарные / Комбинированные / Новые объекты / Парафразы). SI-SFT обозначает SuperIgor, валидированный на планах, сгенерированных после обучения LLM с учителем, а SI-DPO — SuperIgor, валидированный после DPO-дообучения LLM................................95

13. Рисунок 5.1 — Результаты модели KnowNo на бенчмарке AmbiK: показатели успешности (Success Rate), частоты обращений за помощью (Help Rate) и способности различать неоднозначность (Ambiguity Detection) при разных значениях параметра уверенности (CP).............................101

14. Рисунок 5.2 — Схема обучения и инференса модели Reframing. Слева: двухэтапная настройка LLM — (1) SFT с использованием парафраз GOLD/RefCOCO, проверенных детектором; (2) RL-донастройка с PPO/GRPO, где в качестве награды используется IoU. Справа: во время инференса LLM переформулирует промпты для улучшения локализации объектов..........103

15. Рисунок 5.3 — Пример работы Reframing на данных навигации робота (Источник [5]): сверху пример улучшения запроса в случае, его плохого качества, снизу пример сохранения хорошего качества при изначально удачной формулировке................................................................107

16. Рисунок А.1 — Визуализация мультимодальных сред, представленных для рассмотрения в данной работе...............................................134

Список таблиц

1. Таблица 1 — Сравнение мультимодальных сред: сложность языка инструкций (блок «Язык»), сложность мира (окружения) (блок «Мир среды»), а также протоколы оценки агентов (блок «Валидация»).....................61

2. Таблица 2 — Сводная таблица демонстрирующая количество существующих целей и их сложность в датасете CrafText (без Combo).......................66

3. Таблица 1 — Успешность базовых алгоритмов, оцененная по 50 различным сидам в среде CrafText на наборе средней сложности (Medium)..............70

4. Таблица 2 — Сравнение моделей на простых задачах (Easy) датасета CrafText.......................................................................71

5. Таблица 3 — Сопоставление форматов prims и coords..................80

6. Таблица 4 — Сравнительный анализ метрики F1 (чем выше, тем лучше) для подхода IGOR и победителей соревнования IGLU-2022 на тестовом датасете.82

7. Таблица 5 — Сравнительный анализ различных стратегий обработки данных для обучения LLM. Таблица показывает значения метрики F1, отражающей расхождение между предсказанными моделью фигурами и эталонными. Наибольшие показатели в каждой категории выделены жирным шрифтом......................................................................82

8. Таблица 6 — Сравнение результатов обучения для задачи сегментации с открытым словарём..........................................................105

9. Таблица 7 — Влияние размера языковой модели-адаптера на качество сегментации модели YOLA-E................................................106

Приложение А Описание сред с примерами инструкций

Рисунок А.1 — Визуализация мультимодальных сред, представленных для

рассмотрения в данной работе.

Read to Fight Monsters

ЯТЕМ - это среда, где агент учится читать и применять процедурные игровые инструкции, чтобы проходить подземелье. В каждом эпизоде генерируется текстовый мануал с описанием динамики конкретного мира (например, слабости монстров, свойства предметов), а также формулируется языковая цель. Ключевая особенность ЯТЕМ - необходимость понимания текста в динамической обстановке. Агент должен совмещать информацию из мануала с наблюдениями, чтобы успешно выполнить задание.

В качестве наблюдения агент получает состояние подземелья в ввиде матрицы, где каждый символ обозначает тот или иной объект(расположение своего персонажа, врагов, предметов и пр.) и текстовую инструкцию. В частности, на вход одновременно подаются: (1) сгенерированная текстовая цель (например, победить определённого монстра), (2) текстовый мануал с описанием свойств существ/предметов, и (3) наблюдение за окружающей обстановкой. Эта комбинация требует от агента понимать язык и сопоставлять его с игровым миром.

Агент выполняет дискретные действия, позволяющие перемещаться по клеточному подземелью (вверх, вниз, влево, вправо), а также взаимодействовать с миром - например, атаковать врага, подбирать предметы или использовать объект.

Цель агента - Пройти генерируемое подземелье, используя сведения из мануала. Обычно целью является победить определённое существо или собрать нужные предметы, причём успешная тактика зависит от прочитанного руководства. Например, мануал может гласить, что «огненный дракон уязвим к морозному мечу», тогда целью агента будет найти этот меч и победить дракона.

Мануал может содержать такие фразы, как: «Гоблин боится света - используйте факел, чтобы прогнать его» или «Зелье силы удваивает урон меча». Целевое задание может выглядеть как: «Разбейте кристалл демона, используя правильный артефакт». Агент должен понять эти тексты и действовать соответственно.

Сильная сторона данной среды: RTFM тестирует способность агентов к чтению и обобщению знаний на лету. Слабая сторона: упрощённая графика и ограниченные типы действий; инструкции генерируются программно, из-за чего разнообразие языка ограничено.

Messenger

Messenger - это многозадачная среда, в которой агент должен доставить сообщение адресату, избегая опасностей и взаимодействуя с неигровыми персонажами (NPC). В каждом эпизоде генерируется текстовый мануал, описывающий правила и динамику конкретного уровня (аналогично RTFM,

но с упором на задачу доставки). Агенту необходимо ориентироваться в меняющемся лабиринте, следуя указаниям, планировать маршрут и адаптироваться к динамическим событиям.

В качестве наблюдения агент получает частичный обзор окружения — клеточный топологический мир или 2Э-карту с препятствиями и NPC. Дополнительно предоставляется текстовый мануал с актуальными правилами (например, какие NPC дружественны, какие опасности могут встретиться). Поскольку среда частично обозрима, агенту приходится исследовать пространство и запоминать важные объекты и маршруты.

Агент выполняет дискретные действия, включая перемещения по сетке (север, юг, запад, восток), взаимодействие с объектами (передать сообщение NPC, взять ключ, открыть дверь), а также, при необходимости, «подождать» или «уклониться» от опасности в соответствии с правилами текущего уровня.

Цель агента - доставить сообщение от отправителя к получателю, соблюдая условия безопасности. Например, стартуя с письмом у исходного NPC, агент должен обойти врагов или ловушки и передать письмо нужному персонажу. Задача считается выполненной, когда доставка успешно завершена.

Пример мануала: «Зелёные огры нападают при прямом взгляде -лучше проскользнуть за их спиной». Пример инструкции: «Отнеси письмо стражнику у городских ворот, но избегай дорог с бродячими монстрами». Агент должен понять текстовые подсказки, спланировать маршрут и выбрать безопасный путь.

Сильная сторона Messenger: сочетает навигацию с чтением инструкций, требуя гибкости и стратегического мышления. Слабая сторона: ограниченный набор типов взаимодействий (в основном перемещения) и автоматически генерируемый язык инструкций, что снижает их лингвистическое разнообразие.

BabyAI

BabyAI - это платформа простых задач в решётчатом мире, где агент следует коротким синтетическим языковым инструкциям. Среда построена на движке MiniGrid и включает 19 уровней, сложность которых постепенно растёт. Инструкции формулируются на упрощённом подмножестве английского языка

и описывают навигацию и манипуляцию с объектами: открыть дверь, принести ключ, положить предмет и т.д. Цель BabyAI - исследование эффективности обучения агентов языковому взаимодействию в минималистичном окружении.

В качестве наблюдения агент воспринимает частичное поле 7X7 клеток вокруг себя. Каждая клетка кодируется тремя целочисленными признаками: тип объекта, цвет и состояние (например, дверь открыта/закрыта). По умолчанию это сжатое символическое представление, но возможно включение режима RGB-изображений. Также агент получает текстовую инструкцию, например: "Pick up the red ball"

Агент выполняет дискретные действия, включая: поворот влево/вправо, шаг вперёд, взять предмет, бросить предмет из инвентаря, переключить состояние объекта (например, открыть/закрыть дверь), и действие done для завершения эпизода. Эти действия позволяют перемещаться по комнатам и взаимодействовать с объектами на базовом уровне.

Цель агента - выполнить команду. Задания варьируются от простых (дойти до цели) до составных, включающих несколько шагов. Например: "Pick up the red box and put it next to the green ball" - требуется найти красный ящик, взять его, найти зелёный мяч и положить рядом.

Пример инструкции: "Go to the red room and pick up the blue key". Агент должен пройти в комнату с красными стенами и взять синий ключ.

Сильная сторона: простота и контролируемость, позволяющие быстро тестировать идеи языкового обучения. Слабая сторона: упрощённый язык и мир (однотипные комнаты, ограниченный словарь), что снижает реализм.

Home-Grid

Home-Grid моделирует бытовую обстановку в виде дома с несколькими комнатами, где агент выполняет повседневные задачи по инструкциям. Среда реализована как решётчатый мир, но с более богатым взаимодействием: объекты можно поднимать, переносить и помещать в различные контейнеры. Основной сценарий — уборка: в доме есть мусорные корзины разных типов (для органики, переработки и т.д.) и разнообразные предметы (тарелки, яблоки,

бутылки), которые нужно переместить в правильное место. Задачи требуют последовательности действий, имитируя реальные бытовые процедуры.

В качестве наблюдения агент получает ограниченное пиксельное окно вида от первого лица (например, 3 клетки перед собой). По умолчанию это символическая сетка, которую можно преобразовать в ЯСВ-изображение (96x96 пикселей). В ходе эпизода агент может получать текстовые сообщения, передаваемые по одному токену за шаг. Сообщения делятся на: (1) задание ("выбрось яблоко в мусор") (2) подсказки о расположении объектов ("тарелки находятся на кухне") (3) динамические инструкции ("чтобы открыть компостное ведро, нажми педаль') (4) коррекции ("повернись обратно")

Агент выполняет дискретные действия для перемещения (вперёд/назад, повороты) и взаимодействия с объектами: взять предмет (поместить в инвентарь), положить предмет (из инвентаря на клетку), открыть/закрыть контейнер. Одновременно можно управлять только одним предметом.

Цель агента — выполнить бытовое поручение. В среде предусмотрено 38 шаблонов задач: «найти объект», «взять объект», «выбросить объект в корзину», «перенести объект в комнату», «открыть контейнер». Примеры: "положи яблоко в мусорное ведро'', "отнеси бутылку в гостиную"\ "открой бак для компоста". Эпизод завершается при достижении целевого состояния, агент получает вознаграждение +1.

Пример инструкции: "Подними пустую бутылку и брось её в контейнер для переработки на кухне"Агент должен найти бутылку, взять её, найти на кухне контейнер и положить туда бутылку. В процессе он может получить подсказки о расположении предмета или контейнера.

Сильная сторона: объединяет визуальное восприятие и язык в интерактивной задаче, приближенной к реальности. Слабая сторона: упрощённая структура мира (небольшое число комнат и дискретные объекты) и необходимость сложных моделей для работы с потоковыми текстовыми подсказками.

Touchdown

Touchdown — это среда навигации в реалистичном городском окружении, где агент следует натурально-язычным инструкциям для перемещения по улицам виртуального Манхэттена. Среда использует фотореалистичные 3Э-панорамы улиц (аналог Google Street View), что создаёт высокую визуальную сложность и требует ориентации по реальным ориентирам. Особенность задачи — помимо навигации агент должен выполнить финальное пространственное задание: найти и указать местоположение скрытого объекта ("Touchdown") в целевой точке маршрута.

В качестве наблюдения агент видит панорамный вид от первого лица с возможностью поворота и дискретного перемещения по узлам графа уличной сети. Каждая позиция — это 360°-изображение реального города с деталями (дома, дороги, вывески, транспорт). Мини-карты нет — ориентирование происходит только по визуальным и текстовым ориентирам. Инструкция поступает целиком в начале эпизода и обычно описывает несколько последовательных шагов маршрута.

Агент выполняет дискретные действия: движение вперёд до следующего узла, повороты налево/направо на перекрёстках, осмотр (поворот камеры). Достигнув предполагаемой цели, агент выполняет действие поиска объекта (указание точки). В оригинальной постановке после навигации следует этап пространственной разгадки, где нужно локализовать объект по короткому описанию.

Цель агента — пройти маршрут строго по инструкции и найти целевой объект. Инструкции содержат ориентиры и указания направлений ("поверни налево на первом светофоре, пройди два квартала, найди белое здание с флагами') Финальная цель может быть описана косвенно, что требует интеграции информации из всего маршрута.

Пример инструкции: "Turn and go with the flow of traffic. At the first traffic light turn left. Go past the next two traffic lights. As you come to the third traffic light you will see a white building on your left with many American flags on it. Touchdown is sitting in the stars of the first flag." Агент должен следовать маршруту, используя светофоры и здание с флагами как ключевые ориентиры, и в конце найти правильный флаг.

Сильная сторона: реалистичность и богатство визуальных сцен, проверка способности связывать язык с ориентирами на больших дистанциях. Слабая сторона: фокус только на навигации (без взаимодействия с объектами) и высокая вычислительная нагрузка из-за больших объёмов визуальных данных.

IGLU (Interactive Grounded Language Understanding)

IGLU — это среда ориентированая на построение 3Э-структур по инструкциям на естественном языке, основанная на упрощённом Minecraft. Агент (Builder) может ставить и убирать цветные блоки на ограниченной воксельной сетке, воспроизводя заданные конструкции. Ключевая особенность — необходимость пространственного мышления: понимания формы, размеров и расположения целевой структуры. В интерактивном режиме агент может уточнять непонятные моменты у "архитектора" (Architect) с помощью текстового диалога.

В качестве наблюдения агент видит воксельный мир от первого лица в пределах, например, 11 x 11 x 9 клеток строительной зоны. Он имеет инвентарь с набором блоков разных цветов. Наблюдения включают визуальную сцену (3Э-графику) и при необходимости дополнительную информацию — координаты, ориентацию камеры, текущий блок в руках. На вход подаётся инструкция, например: "Построй вертикальную линию из 3 зелёных блоков, сверху добавь красный блок". В интерактивном режиме агент также видит историю диалога с архитектором.

Агент выполняет дискретные действия, аналогичные Minecraft: движение (вперёд/назад/в стороны, прыжок), вращение камеры, установка блока перед собой, удаление блока, переключение типа блока в руках. Для правильного размещения нужно совместить перемещение, ориентацию камеры и выбор цвета блока.

Цель агента — построить конструкцию, соответствующую инструкции. Структуры могут быть простыми ("построй столб из трёх блоков";) или сложными (""выложи квадрат 4х4 зелёными блоками с синим блоком в центре') В интерактивной версии дополнительная задача — задавать уточняющие вопросы при неоднозначных инструкциях.

Пример инструкции: "Построй фигуру L: вертикальная колонна из 3 блоков, от её нижнего блока вправо 2 блока". Агент должен понять форму, направление и цветовые требования, а затем пошагово их реализовать.

IGLU была представлена как соревнование на NeurIPS 2021-2022 для тестирования методов интерактивного обучения. Результаты показали, что задача остаётся крайне сложной: пространство состояний огромно, язык инструкций часто неоднозначен. Участники использовали комбинации высокоуровневого планирования и низкоуровневого контроля, имитационное обучение на человеческих демонстрациях и дообучение с человеческим фидбеком.

Сильная сторона: проверка способности к пространственному пониманию языка и долгосрочному планированию в 3D. Слабая сторона: колоссальный размер пространства состояний и действий, требующий больших данных или сильных априорных знаний; визуально упрощена и фокусируется только на строительных задачах.

CraftAssist

CraftAssist — это платформа, погружающая агента в мир Minecraft для выполнения совместных строительных и крафтинговых задач вместе с человеком. Агент выступает в роли ассистента: получает команды в чате на естественном языке и должен их интерпретировать и реализовать в игровом мире. Среда построена на полном Minecraft, с сохранением всех игровых механик, что делает её открытой и сложной. Основной фокус — на диалоговом взаимодействии и выполнении пользовательских запросов в реальном времени.

В качестве наблюдения агент воспринимает трёхмерную сцену от первого лица (изображение высокой чёткости), а также может запрашивать состояние блоков в радиусе. Он читает текстовые сообщения из чата, в которых игрок описывает задачу, например: "Построй стену высотой 5 из камня''. Агенту приходится отслеживать изменения в мире, так как человек может частично выполнить задачу или изменить её по ходу.

Агент выполняет широкий набор действий, доступных игроку Minecraft: перемещение (ходьба, прыжки, плавание), установка и разрушение блоков,

крафт предметов (верстак, печь и т.п.), а также отправка сообщений в чат (для уточнений или отчётов). В первых версиях акцент был на строительстве — установка/удаление блоков разных типов в заданных позициях.

Цель агента — выполнить команды человека. Цели не заданы жёстко кодом и формулируются пользователем: "Построй квадратный дом 5x5 из дерева", "Собери 5 брёвен и скрафти верстак", "Напиши HELLO из кирпичных блоков''. Задачи могут быть многошаговыми и изменяться в процессе выполнения.

Пример инструкции: ""Построй, пожалуйста, квадратный дом 5x5 из деревянных блоков с пустым пространством внутри''. Игрок может разбить её на подкоманды: сначала построить контур, затем поднять стены, затем сделать крышу. Агент должен корректно понять и реализовать каждую часть.

Сильная сторона: реалистичный сценарий человек-робот сотрудничества в открытом мире. Слабая сторона: отсутствие фиксированной метрики успеха усложняет применение стандартного RL; обучение "с нуля" в полном Minecraft крайне затруднено без упрощений или предварительных знаний.

Mine-Dojo

Mine-Dojo — это обобщённая среда на базе Minecraft, предоставляющая открытый мир с множеством разнообразных задач. Авторы (Fan et al., 2022) собрали интернет-ресурсы по Minecraft (вики, видео, форумы) и сформировали каталог из более чем 1000 целей — от простых (""срубить дерево'') до сложных ("победить дракона Края') Среда служит тестовой площадкой для разработки агентов, способных к многозадачности и долговременному обучению в богатом, реалистичном окружении.

В качестве наблюдения агент получает RGB-кадры игры (например, 64x64 или 128x128) и, опционально, игровые показатели (здоровье, инвентарь, координаты). Обычно наблюдение неполное, что требует ориентироваться по визуальным данным. Задачи формулируются как текстовое описание цели ("Collect 64 diamonds') которое может быть сопоставлено с происходящим через модель MineCLIP — систему, связывающую текст и видеоконтент Minecraft.

Агент выполняет полный набор действий Minecraft: перемещение, вращение камеры, добыча и установка блоков, использование предметов, крафт, переключение предметов. В исследованиях могут использоваться макрокоманды высокого уровня ("перейти к координатам X,Y") но базовая постановка предполагает управление на низком уровне, как у обычного игрока.

Цель агента — выполнить одну из множества задач каталога. Цели распределены по категориям: исследование ("посетить 5 биомов") добыча ресурсов, крафт, строительство, бой. Достижение проверяется либо внутриигровыми скриптами, либо моделью MineCLIP, которая оценивает соответствие происходящего описанию цели.

Пример цели: "Добудь железную руду и выплавь железный слиток" — агент должен изготовить кирку, добыть руду, использовать печь с топливом для переплавки. Более сложная миссия: "Построй портал в Нижний мир" — требует добычи обсидиана и сооружения рамки 4x5 с последующим поджогом.

Сильная сторона: максимальная гибкость и широта задач, приближение к универсальной среде для обучения ИИ. Слабая сторона: крайне высокая сложность — без внешних знаний и демонстраций агенты практически не справляются; отсутствует непосредственный ввод инструкций, цели заданы формально.

CEREALBAR

CEREALBAR — это кооперативная игра в 3Э-окружении, где два агента (лидер и исполнитель) совместно собирают наборы карт с символами. Лидер знает, какие комбинации карт составляют выигрышный набор, и через чат на естественном языке даёт инструкции исполнителю, который перемещается и подбирает карты. Среда разработана для изучения многоагентной координации и коммуникации, проверяя способность агентов эффективно обмениваться информацией и действовать слаженно.

В качестве наблюдения лидер видит карту расположения карт сверху и знает условие для набора (например, три карты с одинаковой формой, но разного цвета). Исполнитель видит мир от первого лица: в комнате или лабиринте на полу/стенах расположены карты с различными символами.

Исполнитель не знает целевых карт и полагается на инструкции лидера. В некоторых режимах символы на картах скрыты, пока исполнитель не подойдёт к ним близко, что усиливает необходимость точных описаний.

Агент-лидер выполняет единственное действие — отправку текстовых сообщений с инструкциями. Исполнитель управляется дискретными действиями: перемещение по 3Э-пространству, повороты, взаимодействие с картами (поднять). Раунд завершается, когда собран валидный набор, при этом время ограничено числом ходов.

Цель агентов — собрать правильный набор карт, удовлетворяющий заданным условиям. Атрибутами карт могут быть форма, цвет, количество символов. Пример: набор — три карты с жёлтым цветом, но разными формами (круг, квадрат, треугольник). Лидер должен сформулировать инструкцию так, чтобы исполнитель быстро нашёл нужные карты.

Пример инструкции: "Собери три жёлтые фигуры: круг (прямо), квадрат (на столе справа), треугольник (у окна)"Исполнитель, следуя описанию, находит и подбирает карты.

Сильная сторона: фокус на реальном времени и естественной коммуникации между агентами, что делает задачу близкой к человеко-машинному взаимодействию. Слабая сторона: ограниченный сюжет (сбор карт) и сравнительно простое окружение, что снижает реализм по сравнению с более комплексными сценариями.

ALFRED (Action Learning From Realistic Environments and

Directives)

ALFRED — это фотореалистичная среда бытовых задач, где агент должен выполнять пошаговые инструкции по взаимодействию с предметами в квартире. Среда построена на движке AI2-THOR и содержит кухни, гостиные, спальни и другие комнаты с множеством объектов, имеющих различные состояния (грязный/чистый, нарезанный/целый, горячий/холодный). Задачи требуют не только навигации, но и сложных манипуляций, часто с учётом последовательности и взаимозависимости действий.

В качестве наблюдения агент видит сцену от первого лица в фотореалистичном 3D. Поле зрения ограничено, поэтому для поиска объектов нужно перемещаться и вращать камеру. Дополнительно могут быть доступны данные глубины или сегментации, но большинство подходов используют только RGB-изображения. В начале эпизода агент получает высокоуровневую цель ("Rinse off a mug and place it in the coffee maker";) и последовательность текстовых шагов, описывающих порядок действий.

Агент выполняет дискретные действия высокого уровня: перемещение (MoveAhead, RotateLeft/Right, LookUp/Down), взаимодействие с объектами (PickupObject, PutObject, OpenObject, CloseObject, ToggleObject, SliceObject). Для успешного взаимодействия требуется, чтобы объект был в зоне досягаемости и корректно выделен в поле зрения.

Пример инструкции: Высокоуровневая цель: "Помой кружку и поставь её в кофеварку". Пошаговые указания: (1) взять грязную кружку из кофеварки, (2) подойти к раковине, (3) помыть кружку, (4) вернуться к кофеварке, (5) поставить кружку обратно. Агент должен распознать объекты, открыть и закрыть необходимые элементы (например, кран), и выполнить действия в правильном порядке.

Сильная сторона: фотореализм, многошаговые сценарии и близость к реальным бытовым задачам. Слабая сторона: высокая вычислительная сложность, накопление ошибок в длинных цепочках действий и проблемы с обобщением на новые сцены.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат наук Воловикова Зоя Александровна

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Методы и алгоритмы нейросимвольного обучения и планирования поведения когнитивных агентов2024 год, доктор наук Панов Александр Игоревич

Повышение эффективности методов генерации изображений мультимодальными нейронными сетями2025 год, кандидат наук Воронов Антон Дмитриевич

Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками2023 год, кандидат наук Староверов Алексей Витальевич

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Методический потенциал цифровых мультимодальных текстов в обучении РКИ2023 год, кандидат наук Кривенко Ольга Федоровна

Методы мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамических сред2025 год, кандидат наук Малышева Александра Ивановна

Список литературы диссертационного исследования кандидат наук Воловикова Зоя Александровна, 2025 год