Методы мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамических сред

Малышева Александра Ивановна

Методы мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамических сред тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Малышева Александра Ивановна

Малышева Александра Ивановна
кандидат наук
2025

Специальность ВАК РФ00.00.00

Количество страниц 131

Малышева Александра Ивановна. Методы мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамических сред: дис. кандидат наук: 00.00.00 - Другие cпециальности. «Национальный исследовательский университет «Высшая школа экономики». 2025. 131 с.

Оглавление диссертации кандидат наук Малышева Александра Ивановна

Введение

Глава 1. Теоретические основы и современные подходы в мультиагентном обучении с подкреплением

1.1. Математические и алгоритмические основы обучения с подкреплением

1.1.1. Математическая модель обучения с подкреплением

1.1.2. Обучение на основе функции ценности

1.1.3. Формирование наград

1.2. Нейросетевые архитектуры

1.2.1. Базовые нейросетевые архитектуры

1.2.2. Графовые нейронные сети для структурированных представлений

1.2.3. Сиамские архитектуры и механизм сопоставления признаков

1.2.4. Архитектура Трансформер

1.3. Интеграция глубоких нейросетей в обучение с подкреплением

1.3.1. Глубокое обучение с подкреплением на основе функции ценности

1.3.2. Модели Актор-Критик и их нейросетевые реализации

1.3.3. Графовые нейронные сети и их роль в обучение с подкреплением

1.3.4. Иерархическое обучение с подкреплением

Выводы

Глава 2. Метод скрытых потенциалов для обучения двигательных навыков

2.1. Анализ существующих методов формирования награды

2.2. Формализация задачи обучения движению

2.3. Метод скрытых потенциалов

2.3.1. Ближайший пространственный потенциал

2.3.2. Потенциал облака точек

2.3.3. Ближайший пространственно-временной потенциал

2.4. Архитектура алгоритма и реализация

2.4.1. Формирование плотной функции награды

2.4.2. Пространственная и временная репрезентация состояния

2.4.3. Потенциальная функция и параметры масштабирования

2.4.4. Обобщённая архитектура алгоритма

2.5. Экспериментальные результаты

2.5.1. Обучение прыжку

2.5.2. Обучение приседанию

2.5.3. Обучение ходьбе

2.6. Выводы

Глава 3. Графовые нейронные сети в многоагентном обучении с подкреплением: архитектура MAGNet

3.1. Анализ графовых моделей в мультиагентных системах

3.2. Формулировка задачи построения релевантного взаимодействия

3.3. Архитектура MAGNet

3.3.1. Генерация графа релевантности на основе наблюдений

3.3.2. Механизмы передачи и агрегации сообщений

3.3.3. Актуализация информации и внимание к контексту

3.3.4. Принятие решений в условиях координации

3.4. Реализация алгоритма и инженерные аспекты

3.4.1. Среда Роттегтап

3.4.2. Обучение и настройка архитектуры

3.5. Экспериментальные результаты

3.5.1. Сравнение с существующими MARL-метoдами

3.5.2. Интерпретация графа взаимодействия

3.6. Выводы

Глава 4. Визуальное отслеживание объектов: архитектура DOTCL с круговой функцией

потерь

4.1. Обзор современных подходов отслеживания объектов

4.2. Формулировка задачи визуального отслеживания объектов

4.3. Архитектура модели DOTCL

4.3.1. Архитектура Transformer Tracker для временной динамики

4.3.2. Пятиразмерная параметризация вращающейся рамки

4.3.3. Круговая функция потерь с ориентационной компонентой

4.4. Реализация алгоритма и обучение

4.4.1. Используемые данные для обучения и валидации

4.4.2. Методы оценки и валидации

4.4.3. Подробности архитектуры и обучающего процесса

4.5. Экспериментальные результаты

4.6. Выводы

Глава 5. Обучение стратегическому поведению в игре Stratego с использованием алгоритма DeepNash

5.1. Сравнительный анализ подходов к обучению в играх с неполной информацией

101

5.2. Формализация задачи для среды Stratego

5.3. Архитектура модели DeepNash

5.3.1. Алгоритм Regularized Nash Dynamics (R-NaD)

5.3.2. Представление состояний и нейросетевая структура

5.3.3. Масштабирование и стабильность обучения

5.4. Реализация алгоритма и инженерные аспекты

5.4.1. Формирование награды и регуляризация политики

5.4.2. Архитектура входного тензора и процесс обучения

5.4.3. Тонкая настройка и стратегия постобработки

5.5. Экспериментальные результаты

5.5.1. Сравнение с существующими стратегическими агентами

5.5.2. Оценка в матчах против людей

5.5.3. Интерпретация и анализ стратегического поведения

5.6. Выводы

Заключение

Список сокращений и условных обозначений

Список литературы

Список рисунков

Список таблиц

Введение диссертации (часть автореферата) на тему «Методы мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамических сред»

Введение

Обучение агентов в сложных, частично наблюдаемых и многоагентных средах представляет собой одну из центральных проблем современной искусственного интеллекта. С одной стороны, глубокое обучение с подкреплением DRL (Deep Reinforcement Learning) обеспечивает мощные средства для автономного построения стратегий, способных достигать выдающихся результатов в игровых, симулированных и реальных задачах [1]. С другой — его применимость ограничивается высокими требованиями к числу эпизодов обучения, нестабильностью при редких наградах и трудностями обобщения в пространствах высокой размерности [2,3]. Эти ограничения особенно заметны в задачах управления движением и координации поведения, что подчёркивается и в прикладных исследованиях RL для робототехники и компьютерного зрения [4].

Также отдельный вызов представляет частичная наблюдаемость: агенту необходимо формировать внутренние представления о среде на основе неполной и шумной информации. Для решения этой проблемы развиваются подходы, основанные на визуальной обработке, где задача трекинга объектов становится ключевым компонентом построения состояния агента. При этом современные методы визуального отслеживания по-прежнему сталкиваются с трудностями при работе со сложными объектами или длительными эпизодами, несмотря на успехи трансформерных архитектур [5]. Некоторые направления, такие как стохастическое усреднение весов в DRL, демонстрируют улучшение стабильности и позволяют смягчить последствия нестабильного обучения [6].

Параллельно, в мультиагентных системах растёт интерес к использованию графовых нейронных сетей GNN (Graph Neural Network) как инструмента для представления взаимодействий между агентами. Такие модели позволяют не только масштабировать архитектуру на произвольное число участников, но и вводить селективность внимания к релевантным объектам среды [7,8]. В задачах, требующих согласованного поведения, это становится особенно важно. Однако и здесь остаётся множество открытых вопросов: как агрегировать информацию, как адаптироваться к динамике связей, и как избежать избыточного обмена информации между агентами.

Наконец, одной из наиболее сложных задач остаётся построение стратегий в условиях скрытой информации, где агенты действуют, не имея полного знания о состоянии среды и намерениях других участников. В таких условиях классические подходы, основанные на построении дерева поиска решений, становятся неэффективными. Новые методы, такие как Nash Dynamics и нейронные реализации репликаторной динамики, предлагают эффективные пути к приближённому равновесию в играх с частичной информацией [9], а также дополняются байесовскими подходами к выбору действий с апостериорным сэмплированием и теоретическими гарантиями эффективности [10].

В этой диссертации представлены четыре метода: (1) обучение управлению по демонстрациям через потенциальные функции награды, (2) визуальное построение состояния с использованием отслеживания объектов, (3) координация в мультиагентных системах с помощью графовых нейронных сетей и (4) обучение стратегическому поведению в условиях неполной информации. Вместе они иллюстрируют, как комбинация методов глубокого обучения, графовых структур и теории игр позволяет строить гибкие, масштабируемые и устойчивые к неопределённости мультиагентные системы.

Актуальность. Мультиагентные интеллектуальные системы становятся всё более востребованными в контексте задач управления, планирования и принятия решений в реальном времени. Современные приложения включают в себя беспилотные транспортные средства [11], кооперативную робототехнику [12], системы оборонного и стратегического моделирования [13], игры с неполной информацией [14] и автономные распределённые системы [15]. Такие сценарии требуют от агентов способности действовать согласованно, эффективно обмениваться информацией и адаптироваться к частично наблюдаемой и динамически изменяющейся среде [16].

Несмотря на быстрый прогресс в области одиночного обучения с подкреплением [17], существующие подходы зачастую оказываются неэффективными в условиях, где присутствует множество агентов с пересекающимися интересами [18]. Мультиагентные среды предъявляют новые требования к структуре модели: необходимо не только обрабатывать локальные наблюдения, но и учитывать контекст поведения других агентов [19]. Это требует разработки архитектур, способных к устойчивому взаимодействию,

совместному обучению [20] и синхронизированной адаптации. Ключевой проблемой остаётся организация эффективного обмена сообщениями и формирование коллективного поведения при ограниченных вычислительных и информационных ресурсах [8,21].

В то же время архитектуры, демонстрирующие хорошие результаты в мультиагентных задачах, как правило, являются специализированными и плохо обобщаются на новые сценарии [16,22]. Попытки использования фундаментальных моделей, подобных тем, что используются в больших языковых системах [5], сталкиваются с ограничениями по ресурсоёмкости и сложности настройки. Они включают десятки и сотни миллионов параметров, требуют длительного обучения [9] и не предоставляют встроенных механизмов координации. При этом на практике часто возникает необходимость адаптировать модель к новой среде или задаче без полной переобучаемости [23].

Сложность взаимодействия между агентами дополнительно усугубляется при наличии частичной наблюдаемости [21]. В таких условиях агент не имеет доступа к полной информации о состоянии среды или действиях других участников, что резко снижает эффективность традиционных подходов [24,19]. Необходимы методы, позволяющие извлекать полезные сигналы из ограниченного наблюдения [25] и комбинировать локальную информацию с полученными сообщениями от других агентов [26].

Таким образом, задача построения мультиагентных нейросетевых систем, способных к взаимодействию в условиях частичной информации, динамики и ограниченных ресурсов, является актуальной как с точки зрения теоретической науки, так и в прикладном аспекте. Исследование архитектур взаимодействия [14], методов оптимизации [3] и принципов устойчивого обучения агентов [13] является важной задачей на пересечении теории обучения с подкреплением, нейросетевых моделей и теории многозадачного управления.

Целью диссертационного исследования является разработка и теоретическое обоснование архитектур и алгоритмов взаимодействия между агентами в задачах мультиагентного обучения с подкреплением. Основное внимание требуется уделить

построению моделей обмена информацией, формированию адаптивной структуры награды, а также проектированию архитектур на основе графовых нейронных сетей и трансформеров. Предлагаемые решения должны быть нацелены на повышение устойчивости, обобщающей способности и эффективности агентов в условиях частичной наблюдаемости, динамики среды и ограниченных вычислительных ресурсов.

Для достижения поставленной цели были сформулированы следующие задачи:

1. Провести анализ современных подходов к обучению с подкреплением и мультиагентному взаимодействию:

- изучить марковские процессы принятия решений и стратегии координации в условиях частичной наблюдаемости;

- систематизировать методы централизованного и децентрализованного обучения, а также архитектуры обмена сообщениями между агентами;

- определить требования к масштабируемости, устойчивости и переносимости мультиагентных моделей.

2. Разработать метод скрытых потенциалов, использующий видеодемонстрации для ускоренного обучения агентов:

- формализовать пространственные и пространственно-временные потенциалы как сигналы награды;

- реализовать функцию награды, зависящую от плотности демонстрации, и интегрировать её в алгоритмы обучения с подкреплением;

- провести эмпирическое сравнение с методами обучения от обратного и иерархического подкрепления.

3. Предложить архитектуру мультиагентного обучения на основе графов релевантности и актуализации информации:

- разработать модуль генерации графа взаимодействия на основе наблюдений агентов;

- реализовать механизм передачи, агрегации и актуализации сообщений в графовой структуре;

- протестировать устойчивость архитектуры в задачах с конкуренцией и кооперацией (Pommerman).

4. Исследовать возможности использования трансформеров в задачах отслеживания объектов:

- построить архитектуру DOTCL с модулем трансформера и круговой функцией потерь;

- адаптировать архитектуру к задачам локализации и ориентационно-чувствительной регрессии;

- проанализировать влияние функции потерь на устойчивость восприятия в частично наблюдаемых условиях.

5. Разработать модель стратегического поведения в условиях неполной информации:

- адаптировать алгоритм Regularized Nash Dynamics для симметричных и асимметричных игр;

- обучить агента с учетом скрытых состояний противника и неполной информации о среде;

- сравнить поведение агента с существующими моделями в игре Stratego.

Научная новизна В диссертационной работе получены следующие результаты,

обладающие научной новизной:

1. Разработан метод скрытых потенциалов, включающий пространственные и пространственно-временные компоненты, позволяющий агентам ускоренно осваивать двигательные навыки на основе видеодемонстраций при минимальной инженерной настройке функции награды.

2. Предложена архитектура MAGNet — оригинальная модель мультиагентного взаимодействия, использующая механизм генерации графа релевантности, сообщение и актуализацию информации между агентами. Архитектура показала высокую устойчивость к изменяющимся условиям среды.

3. Разработан метод отслеживания объектов, сочетающий трансформерную архитектуру с круговой функцией потерь, обеспечивающий точную локализацию

с учётом ориентации объектов. Подход применим в системах, требующих пространственно осведомленного восприятия.

4. Создана модель DeepNash для обучения в условиях неполной информации, применённая к игре Stratego. Модель реализует алгоритм Regularized Nash Dynamics, обеспечивая сходимость к сбалансированным стратегиям и демонстрируя превосходство над существующими подходами в конкурентной среде.

Теоретическая и практическая значимость. Представленные в работе методы и архитектуры вносят вклад в развитие теории мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамической неопределённости. Предложенный метод скрытых потенциалов предлагает новый метод построения функций награды на основе плотности демонстраций, позволяя отказаться от ручной настройки или обратного вывода. Архитектура MAGNet раскрывает возможности графовых нейросетей для моделирования адаптивного взаимодействия между агентами, а применение трансформеров с круговой функцией потерь расширяет границы устойчивого восприятия в визуальных задачах. Модель DeepNash адаптирует механизмы стратегического равновесия к играм с частичной информацией и демонстрирует обобщаемость в асимметричных сценариях.

Практическая значимость исследования заключается в возможности применения разработанных подходов в областях автономной робототехники, мультиагентных симуляторов, игрового искусственного интеллекта и распределённых систем принятия решений. Разработанные алгоритмы внедрены в прототипы программных систем и протестированы на задачах управления движением, стратегического взаимодействия и восприятия сцены. Предложенные архитектуры демонстрируют способность к адаптации и устойчивому обучению в новых, ранее не наблюдаемых условиях, что позволяет использовать их в реальных системах с ограниченными ресурсами и высокой степенью неопределённости.

Результаты диссертации могут быть использованы в следующих прикладных задачах: - управление автономными роботами и мобильными агентами; - стратегическое

поведение в соревновательных и кооперативных играх; - визуальное восприятие в условиях частичной доступности данных; - построение симуляторов и интеллектуальных систем принятия решений в распределённой среде.

Таким образом, разработанные методы и архитектуры обладают высокой научной новизной и прикладной ценностью, и могут быть использованы как фундаментальные элементы в построении масштабируемых, обобщающих и практически применимых систем машинного обучения.

В ходе исследования применялись методы теории графов и графовых нейронных сетей, теории вероятностей и марковских процессов, методы оптимизации, включая градиентные и стохастические алгоритмы, а также архитектуры глубокого обучения: свёрточные, рекуррентные, графовые сети и архитектуры Трансформер. Для построения и тестирования моделей использовались симуляционные платформы и собственные программные реализации. Анализ проводился как аналитическими средствами, так и эмпирически, с использованием количественных метрик сходимости и обобщающей способности.

Основные положения, выносимые на защиту:

1. Разработаны архитектурные и алгоритмические решения для организации эффективного взаимодействия между агентами в задачах мультиагентного обучения с подкреплением, включая модель передачи сообщений MAGNet и стратегическую модель DeepNash. Предложенные архитектуры демонстрируют устойчивое поведение в условиях частичной наблюдаемости и высокой динамики среды.

2. Введён метод скрытых потенциалов, использующий пространственные и пространственно-временные зависимости видеодемонстраций для построения плотной функции награды. Метод обеспечивает ускоренное обучение агентов движению без необходимости ручной настройки и предварительного разметки целевых состояний.

3. Проведено теоретическое и эмпирическое обоснование применения графовых нейронных сетей и трансформеров для координации агентов и обработки

частично наблюдаемой информации. Предложенные архитектуры сочетают эффективную передачу информации, локальную адаптацию и обобщающую способность.

4. Проведён комплексный экспериментальный анализ всех предложенных методов на задачах Pommerman, Stratego и двигательных навыков. Показана превосходящая эффективность разработанных решений по сравнению с существующими архитектурами по критериям устойчивости, скорости обучения и переносимости.

Достоверность. Достоверность научных положений, выводов и рекомендаций, полученных в диссертации, подтверждается корректной формализацией задач, строгой постановкой критериев оценки, логическим и математическим обоснованием предложенных алгоритмов, а также их реализацией в программных системах. Экспериментальные исследования проводились с использованием симуляционных платформ и открытых тестовых сред, при этом сравнение с существующими методами выполнялось по общепринятым метрикам производительности, устойчивости и обобщающей способности. Полученные результаты воспроизводимы и подтверждаются эмпирическими экспериментами. Реализации большинства предложенных алгоритмов доступны в открытом доступе и использовались при построении прототипов систем, включая агента DeepNash, архитектуру MAGNet и метод скрытых потенциалов.

Личный вклад. Содержание диссертации и основные положения, выносимые на защиту, полностью соответствуют персональному вкладу автора. В тех частях работы, которые выполнены в научной коллаборации, в диссертацию включены только те результаты, в которых участие автора было определяющим.

В работе Learning to Run with Reward Shaping from Video Data [27] автор предложила метод скрытых потенциалов на основе пространственно-временного анализа видеодемонстраций. В этой работе автор сформулировала концептуальные основы подхода, реализовала алгоритм интеграции с методом обучения с подкреплением и провела эксперименты, подтвердившие его эффективность в задачах генерации движений.

В работе MAGNet [14] автором были предложены ключевые архитектурные идеи, включая механизм генерации графа релевантности на основе наблюдаемых состояний, модуль передачи и актуализации сообщений между агентами, а также принцип структурного внимания. Автор полностью реализовала модель, провела её эмпирическую верификацию и выполнила сравнительный анализ с существующими MARL-методами.

Модель DOTCL [28], ориентированная на визуальное отслеживание объектов в условиях частичной наблюдаемости, была разработана автором в части архитектуры Трансформер, новой параметризации ограничивающей рамки и формулировки круговой функции потерь. Автор осуществила как теоретическое обоснование подхода, так и его реализацию и экспериментальное сравнение с существующими методами.

В рамках исследования DeepNash автор разработала и реализовала процедуру обучения агента в условиях частичной информации с использованием алгоритма DeepCFR. В частности, автор адаптировала оценку ценности на основе V-trace, реализовала обновление политик через NeurD и обеспечила устойчивость обучения за счёт итеративной регуляризации. Кроме того, была предложена и реализована модификация функции награды, основанная на ранее разработанном подходе, представленном в [23].

В рамках исследования Deep Multi-Agent Reinforcement Learning with Relevance Graphs [29] автор обосновала идею использования графов релевантности в условиях частичной информации, разработала алгоритмическую реализацию, а также осуществила визуальный анализ поведения агентов, демонстрирующих стратегическую координацию.

Также автор принимала участие в работах по расширению моделей мира для MARL в среде MALMO [30] и в организации решения задачи обучения с подкреплением в симуляции протезирования [31]. В обоих случаях вклад автора заключался в адаптации архитектур обучения к требованиям среды, настройке функций награды и обеспечении стабильного взаимодействия между модулями восприятия и действия.

Таким образом, во всех представленных в диссертации исследованиях автор являлась инициатором ключевых научных идей, осуществляла архитектурное проектирование моделей, принимала участие в теоретическом анализе, программной реализации и проведении экспериментальной оценки разработанных решений.

Публикации и апробация работы

В рамках данного диссертационного исследования автором были опубликованы следующие публикации в международных рецензируемых изданиях:

Публикации повышенного уровня1:

1. Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning / J. Perolat, B. De Vylder, D. Hennes, E. Tarassov, F. Strub, V. de Boer, A. Malysheva Science 378.6623 (2022): 990-996. [13].

2. Learning to Run with Potential-Based Reward Shaping and Demonstrations from Video Data / A. Malysheva, D. Kudenko, A. Shpilman 2018 15th International Conference on Control, Automation, Robotics and Vision (ICARCV) [27].

Прочие публикации2:

1. MAGNet: Multi-Agent Graph Network for Deep Multi-Agent Reinforcement Learning / A. Malysheva, D. Kudenko, A. Shpilman XVI International Symposium «Problems of Redundancy in Information and Control Systems». 2019 [14].

2. End-to-End Deep Object Tracking with Circular Loss Function for Rotated Bounding Box / V. Belyaev, A. Malysheva, A. Shpilman XVI International Symposium «Problems of Redundancy in Information and Control Systems». 2019 [28].

3. Artificial Intelligence for Prosthetics: Challenge Solutions / L. Kidzinski, C. Ong, SP Mohanty, J. Hicks, S. Carroll, B. Zhou, H. Zeng, A. Malysheva и др. The NeurIPS'18 Competition: Building Intelligent Systems. Springer, 2020 [31].

4. Extending World Models for Multi-Agent Reinforcement Learning in MALMO / V. Chockalingam, TT Sung, FMP Behbahani, R. Garg, A. Sivanantham, A. Malysheva AAAIAIIDE Workshops. 2018 [30].

Доклады на конференциях и семинарах 1. Challenge Solutions for Prosthetic Control: устная презентация на воркшопе Artificial Intelligence for Prosthetics, в рамках 32nd Conference on Neural Information Processing Systems (NeurlPS), декабрь 2018, Монреаль, Канада.

публикации в изданиях с высоким уровнем цитируемости (включая Science) 2публикации в рецензируемых изданиях и сборниках научных конференций

2. Multi-Agent Coordination via Graph Neural Networks (MAGNet); Circular Loss Function for Rotated Object Tracking: устные презентации на XVI Международном симпозиуме «Проблемы избыточности в информационных и управляющих системах», июль 2019, Москва, Россия.

3. Extending World Models for Multi-Agent Reinforcement Learning in MALMO: постерная презентация на воркшопе AIIDE, в рамках 32nd AAAI Conference on Artificial Intelligence, февраль 2018, Эдмонтон, Канада.

4. Learning to Run with Reward Shaping from Video: устная презентация на 15th International Conference on Control, Automation, Robotics and Vision (ICARCV), ноябрь 2018, Сингапур.

5. Reward Shaping from Video Data in Locomotion Tasks: устная презентация на воркшопе Adaptive Learning Agents (ALA), в рамках Federated AI Meeting, июль 2018, Стокгольм, Швеция.

6. Strategic Learning in Multi-Agent Environments with Partial Observability: постерная презентация на Berlin Machine Learning Seminar, апрель 2021, Берлин, Германия.

7. DeepNash and Regularized Nash Dynamics in Stratego: устная презентация на Deep Reinforcement Learning in Games and Strategy Workshop, ноябрь 2022, Сан-Франциско, США.

8. Applications of MARL in Real-World Systems: устная презентация на Berlin AI Applications Forum, июнь 2021, Берлин, Германия.

9. Agents in Games with Incomplete Information: предзаписанная устная презентация на Multi-Agent Systems Symposium (MASS), октябрь 2021, Сан-Франциско, США.

10. Planning and Self-Play for Multi-Agent Systems: устная презентация на Strategic Learning and Planning Workshop, в рамках MLWeek, октябрь 2022, Берлин, Германия.

11. Architectures for Multi-Agent Coordination in Robotics and Simulation: предзаписанная устная презентация на коллоквиуме Applied MARL & Robotics, июнь 2021, Технический университет Берлина, Германия.

Объем и структура работы

Диссертация состоит из введения, шести разделах, заключения и приложений. Полный объем диссертации составляет 131 страницу, включая 18 рисунков и 2 таблицы. Список литературы содержит 96 наименования.

В первой главе приводится обзор методов обучения с подкреплением, включая марковские процессы принятия решений, глубокие нейросетевые архитектуры, и современные подходы к мультиагентному обучению, включая централизованное обучение с децентрализованным выполнением и иерархическое обучение.

Вторая глава посвящена методу скрытых потенциалов, позволяющему ускорить обучение движению. Описаны как пространственные, так и пространственно-временные потенциалы, структура функций награды и реализация алгоритма.

Третья глава описывает архитектуру MAGNet на основе графовых нейронных сетей, включающую генерацию графа релевантности, передачу сообщений и механизм принятия решений в мультиагентных системах.

Четвёртая глава посвящена архитектурам отслеживания объектов на основе трансформеров. Предложена модель DOTCL с новым типом функции потерь, а также анализируются метрики качества и результаты экспериментов.

Пятая глава фокусируется на применении модели DeepNash в игре Stratego. Раскрываются детали архитектуры, алгоритма Regularized Nash Dynamics и обучение стратегии в условиях частичной наблюдаемости.

Заключение содержит обобщение полученных результатов, подчёркивая вклад в теорию и практику мультиагентного обучения с подкреплением.

Глава 1. Теоретические основы и современные подходы в мультиагентном

обучении с подкреплением

В данном разделе проводится обзор методов обучения с подкреплением, RL (Reinforcement Learning), методов их применения в мультиагентных системах и интеграции с глубокими нейронными моделями.

В первой части раздела рассматриваются классические методы обучения с подкреплением, основанные на марковском процессе принятия решений, MDP (Markov Decision Process) [32]. Излагаются базовые понятия, такие как стратегия, функция ценности, дисконтирование, а также правила обновления поведения агента на основе сигналов вознаграждения от среды. Рассматриваются алгоритмы обучения с использованием функции ценности, в частности Q-learning [33], а также методы формирования награды, играющие критическую роль в ускорении и стабилизации процесса обучения.

Во второй части раздела рассматриваются ключевые архитектуры глубокого машинного обучения, лежащие в основе современных обучающих систем. В частности, излагаются принципы построения полносвязных нейросетей, MLP (Multilayer Perceptron), и сверточных CNN (Convolutional Neural Network) и рекурентных RNN (Recurrent Neural Network) сетей, получивших широкое применение в обработке изображений и видеопотоков [34,35]. Особое внимание уделяется графовым нейронным сетям GNN (Graph Neural Network) [7,36], позволяющим моделировать неевклидовые структуры взаимодействий, и архитектурам трансформеров, эффективно обрабатывающим последовательные и пространственные данные [5]. Также рассматриваются подходы к интеграции визуального восприятия с механизмами принятия решений, включая сиамские архитектуры [25] и модели с вниманием, применяемые в задачах визуального отслеживания и анализа сцены.

Третья часть раздела посвящена глубокому обучению с подкреплением DRL (Deep Reinforcement Learning), в котором классические методы RL сочетаются с подходами, основанными на использовании глубоких нейронных сетей. Здесь подробно рассматриваются модели на основе функции ценности:

- DQN (Deep Q-Network) [17],

- Double DQN [37],

- Dueling DQN [38],

- PER (Prioritized Experience Replay) [39].

Также рассматриваются архитектуры нейронных сетей Актор-Критик:

- A2C (Advantage Actor Critic),

- A3C (Asynchronous Advantage Actor Critic) [40],

- DDPG (Deep Deterministic Policy Gradient) [1].

Особое внимание уделено мультиагентному обучению с подкреплением MARL (Muti-Agent Reinforcement Learning), где агенты обучаются в общей среде и взаимодействуют между собой. Представлены методы как независимого обучения, так и подходы централизованного обучения с децентрализованным исполнением, включая алгоритм QMIX [41]. Раздел завершается обзором иерархических методов обучения с подкреплением, HRL (Hierarchical Reinforcement Learning), в которых поведение агента структурировано на несколько уровней абстракции. Основа подхода была заложена в работе [42], позволяющий формировать действия как последовательность подзадач. Практические реализации, такие как h-DQN (Hierarchical Deep Q-Network) [43], демонстрируют использование двойной иерархии стратегий с раздельным управлением целями и действиями.

1.1. Математические и алгоритмические основы обучения с подкреплением

Список литературы диссертационного исследования кандидат наук Малышева Александра Ивановна, 2025 год

- кт -

Здесь размерность dk = dq используется в качестве нормирующего множителя, предотвращая слишком большие значения при скалярном произведении.

Однако вместо одного блока внимания, Q, К и V проецируются h раз с помощью отдельных линейных преобразований W®, W^ и WУ. Каждый набор проекций подается на вход блоку внимания и дает на выходе тензор размерности dv :

Att(Qi K,V) = Soîtmax

V (1.12)

H, = Att (из)

Выходы всех таких проекций объединяются и подаются в нейросетевую проекцию W°, формируя окончательный выход многоголового внимания:

MultiHead(Q, К, V) = Concat(H1,Hh)W° (1.14)

1.3. Интеграция глубоких нейросетей в обучение с подкреплением

Развитие методов обучения с подкреплением RL получило значительный импульс благодаря интеграции с глубокими нейросетевыми архитектурами, что привело к становлению отдельного направления — глубокого обучения с подкреплением DRL [57]. Ключевым драйвером этого перехода стала необходимость решения задач в высокоразмерных и частично наблюдаемых средах, где классические табличные или линейные методы, основанные на явных представлениях среды, оказываются недостаточными [17,58].

Появление DRL во многом обязано прогрессу в области сверточных нейросетей (CNN), доказавших свою эффективность в извлечении признаков из визуальных данных [35], а также рекуррентных архитектур (RNN), способных моделировать временные зависимости [49]. Впервые потенциал объединения нейросетей и RL был убедительно продемонстрирован в архитектуре Deep Q-Network (DQN), предложенной в работе [17], где агент обучался действовать в среде Atari исключительно на основе пиксельного ввода. Дальнейшее развитие этой линии дало начало целому семейству алгоритмов: Double DQN [37], Dueling DQN [38], PER [39] и др.

Особую значимость DRL приобрело в мультиагентных системах (MARL) [59], где агенты действуют в условиях кооперации или конкуренции. Для таких задач были разработаны архитектуры с централизованным критиком и децентрализованным исполнением, включая MADDPG (Multi-Agent Deep Deterministic Policy Gradient) [18] и MA-SAC (Multi-Agent Soft Actor-Critic) [16], обеспечивающие эффективную координацию при сохранении масштабируемости. Дополнительный прогресс был достигнут за счёт

использования графовых структур и внимания, расширяющих выразительность модели за счёт учёта сложных зависимостей между агентами [52,14].

В рамках данного раздела рассматриваются четыре ключевых направления развития DRL. Сначала представлены модели, основанные на функции ценности (Q-функции), включая как классические алгоритмы, так и их мультиагентные расширения. Далее обсуждаются архитектуры Актор-Критик, сочетающие стратегии и оценки ценности. В отдельном подразделе анализируются подходы с использованием графовых нейронных сетей GNN как способ моделирования структурированных взаимодействий. Завершает раздел обзор иерархических стратегий, обеспечивающих многоуровневое управление и повторное использование навыков.

1.3.1. Глубокое обучение с подкреплением на основе функции ценности

Одним из центральных подходов в глубоких методах обучения с подкреплением является обучение через аппроксимацию функции ценности. Такая функция позволяет количественно оценивать долгосрочную полезность действия или состояния, предоставляя агенту основу для принятия решений. В рамках глубокого обучения функция ценности приближается нейронной сетью, что позволяет эффективно работать в условиях высокоразмерного пространства признаков.

Классическим примером такого подхода стал алгоритм Deep Q-Network (DQN) [17], в котором Q-функция аппроксимируется сверточной нейросетью. Он стал первым доказательством того, что комбинация Q-learning с глубокими архитектурами может достичь производительности, превосходящей человека, в играх Atari. Впоследствии появились усовершенствования DQN, направленные на устранение переоценки значений, повышение устойчивости и ускорение сходимости: Double DQN [37], Dueling DQN [38], а также PER [39].

Функция действия, или Q-функция, определяется как:

Q*(s,a) = E[R(s,a) +^(8')], (1.15)

где Vpi(s') — ценность следующего состояния. В случае оптимальной политики -к* , функция принимает форму:

Q(s,a) = E R(s,a) + jm&xQ(s',a') .

(1.16)

Функция состояния ^(в), в свою очередь, представляет собой ожидаемую суммарную награду при следовании политике р1, начиная из состояния

В мультиагентных системах классические методы на основе Q-функции зачастую реализуются в виде децентрализованного обучения, при котором каждый агент обучает собственную стратегию, основываясь исключительно на локальных наблюдениях и своих действиях. Этот подход известен как независимое Q-обучение, IQL (Independent Q-Learning), [60]. В рамках IQL агент г приближает собственную Q-функцию Qi(s ,a ), игнорируя влияние действий других агентов, что приводит к модели, аналогичной одиночному обучающемуся агенту. Обновление Q-функции осуществляется по классической формуле Беллмана:

где ri — индивидуальная награда агента, si — его локальное состояние, а — скорость обучения, 7 — коэффициент дисконтирования. Несмотря на простоту реализации, IQL страдает от нестабильности: поскольку политики других агентов меняются во время обучения, среда становится нестационарной с точки зрения каждого отдельного агента, что нарушает предпосылки сходимости алгоритма.

Для устранения этих ограничений в области MARL был разработан класс методов с централизованным обучением и децентрализованным выполнением, CTDE (Centralized Training with Decentralized Execution), [19]. В таких подходах во время обучения агент имеет доступ к глобальной информации (например, действия и состояния всех участников), но при выполнении использует только локальные наблюдения. Это позволяет учитывать влияние других агентов при обучении, оставаясь автономным на этапе исполнения. Одним из ярких примеров CTDE является метод QMIX (Monotonie Value

(1.17)

Qi(Si,ai) ^ Qi(Si,ai) +а ri+jmaxQi(Si',ai') -Qi(Si,ai) , (1.18)

Function Factorisation) [41], в котором индивидуальные Q-функции агентов Qi(si,ai) агрегируются через монотонную функцию fe в глобальную функцию Qtot :

Qtotis, а) = fe(Qn Q2,Qn), (1.19)

дО

при этом обеспечивается свойство: > 0 гарантирующее согласованность между локальными и глобальной функциями ценности. Это означает, что максимизация индивидуальных Qi приводит к максимизации общего Qtot, позволяя обучать агентов совместно, сохраняя децентрализованное выполнение. Архитектура f0 реализуется в виде нейросети с ограничениями на монотонность, обеспеченными с помощью положительных весов.

Для повышения стабильности обучения в глубоких Q-методах применяются методы, заимствованные из DQN [17]:

1. Повторное воспроизведение опыта (Experience Replay) — хранение и повторное использование предыдущих взаимодействий (s, а, г, s'), что устраняет корреляцию между последовательными переходами и повышает эффективность обучения. Особенно это актуально в MARL, где взаимодействия между агентами порождают сложную динамику, а повторное воспроизведение позволяет выявлять устойчивые паттерны поведения.

2. Target Network

— использование отдельной сети Q^arget Для расчета целевых значений, которая обновляется реже или постепенно. Это предотвращает самоподкрепление и ускоряет сходимость. Обновление целевой сети осуществляется либо жестко (копирование параметров через заданное число шагов), либо мягко по формуле:

^target ^ online + (1 — target, (1-20)

где т £ [0,1] — коэффициент плавного обновления.

Такой метод стабилизации особенно важен в мультиагентных системах, где даже небольшие колебания Q-оценок могут приводить к лавинообразному изменению поведения всей группы агентов.

Таким образом, модели на основе функции ценности являются фундаментом большинства современных DRL методов, обеспечивая стабильное и эффективное

обучение агентов. В мультиагентных задачах их развитие направлено на преодоление проблем частичной наблюдаемости, нестабильности и необходимости координации между агентами, что делает их особенно актуальными в современных исследовательских и прикладных сценариях.

1.3.2. Модели Актор-Критик и их нейросетевые реализации

Методы обучения с подкреплением, использующие архитектуру Актор-Критик (Actor-Critic), объединяют сильные стороны стратегий, основанных на политике (policy-based methods), и методов, основанных на функции ценности (value-based methods). В этих подходах агент реализуется через два взаимосвязанных компонента:

- Актор (Actor): генерирует действия на основе текущей стратегии.

- Критик (Critic): оценивает выбранные действия, предоставляя сигнал об их качестве, что позволяет корректировать стратегию актора

Такая структура обеспечивает стабильное и эффективное обучение в сложных средах, позволяя агенту балансировать между исследованием новых стратегий и использованием уже изученных решений.

Основу методов Актор-Критик составляет совместная оптимизация двух потоков: генерации действий и оценки их качества. Актор параметризует политику -Ke(als), где в — параметры модели, s — состояние среды, а а — выбранное действие. Критик, в свою очередь, обучается оценивать ценность состояния или действия с помощью функций Vn(s) и Qpi(s, а) соответственно.

Обновление параметров актора осуществляется с использованием градиента политики:

VeJ(e)=Es~d^^e[Velog^e(als)Q^(s,a)], (1.21)

где dpi — распределение состояний при следовании политике pi.

Критик обучается путем минимизации ошибки временной разницы (TD-error):

5t = rt + jV-(st+1)-V-(st), (1.22)

где rt — полученная награда, 7 — коэффициент дисконтирования.

Для повышения эффективности обучения были предложены улучшенные модификации архитектуры:

1. Advantage Actor-Critic (A2C) — синхронный вариант Актор-Критик, в котором несколько агентов обучаются параллельно, синхронизируя градиенты после каждого цикла взаимодействия со средой.

2. Asynchronous Advantage Actor-Critic (A3C) — асинхронный вариант, где несколько агентов обучаются независимо и обновляют общую модель без синхронизации, что способствует исследованию различных стратегий и ускоряет обучение.

В обоих методах используется функция преимущества (advantage function):

A*(s,a) = Q*(s,a)-V*(s), (1.23)

которая оценивает, насколько действие а в состоянии s лучше или хуже среднего ожидаемого результата.

В задачах с непрерывным пространством действий Актор-Критик модели расширяются за счёт следующих алгоритмов:

1. DDPG (Deep Deterministic Policy Gradient): комбинирует идеи детерминированного градиента политики (DPG) [61] и DQN [17], используя детерминированную политику для генерации действий и нейронные сети для аппроксимации функций актора и критика. Обновление актора в DDPG:

VeJ(0) = Es~d [VaQ"M\a=pi{s) , (1.24)

где D — реплей-буфер с накопленным опытом.

2. TD3 (Twin Delayed DDPG): улучшает DDPG, используя две Q-функции для уменьшения переоценки и задержку обновления актора для повышения стабильности. Обновление критика в TD3:

у = r + jmmQiPi/(s',K9,(s')+£), (1.25)

где £ — добавленный шум для сглаживания политики.

3. SAC (Soft Actor-Critic): вводит энтропийную регуляризацию, поощряя политику к большей стохастичности, что улучшает исследование среды и стабильность обучения. Функция потерь актора в SAC:

J.(9) = [abg^(a|e) - Q^(s'a)], (1.26)

где a — коэффициент, регулирующий вклад энтропии.

В мультиагентных системах архитектуры Актор-Критик адаптируются для учета взаимодействий между агентами. Один из подходов — использование централизованного критика и децентрализованного актора:

1. Централизованный критик: имеет доступ к информации о всех агентах и оценивает совместную ценность действий, что позволяет учитывать координацию между агентами.

2. Децентрализованный актор: каждый агент принимает решения на основе своей локальной информации, обеспечивая масштабируемость и применимость в реальных сценариях.

Примеры таких алгоритмов:

- MADDPG (Multi-Agent Deep Deterministic Policy Gradient): расширяет DDPG на мультиагентные системы, используя централизованного критика для оценки совместной Q-функции, зависящей от действий и состояний всех агентов, при этом акторы остаются децентрализованными. Такой подход позволяет эффективно учитывать координацию между агентами, сохраняя возможность масштабируемого выполнения политик в реальной среде [18].

- MA-SAC (Multi-Agent Soft Actor-Critic): адаптирует принципы SAC для мультиагентных сценариев, включая энтропийную регуляцию в централизованную функцию полезности. Это способствует лучшему исследованию пространства действий и устойчивости обучения в условиях стохастичности и частичной наблюдаемости [16].

- COMA (Counterfactual Multi-Agent) [19]: использует централизованного критика, основанного на контрфактической разности, для вычисления градиента политики каждого агента. Такой механизм позволяет точно оценить вклад каждого агента в общее вознаграждение, улучшая координацию и ускоряя сходимость.

В представленных выше работах показано, что архитектуры на основе подхода Актор-Критик демонстрируют высокую гибкость и адаптивность как в одиночных, так

и в мультиагентных сценариях. Благодаря сочетанию локального принятия решений и глобальной координации, эти методы стали основой для построения эффективных и масштабируемых систем обучения в условиях высокой динамики, частичной наблюдаемости и сложных взаимодействий между агентами.

1.3.3. Графовые нейронные сети и их роль в обучение с подкреплением

Основы графовых нейронных сетей GNN, включая архитектуру передачи сообщений и механизм агрегации информации от соседей, были рассмотрены в разделе 1.2.2. В данном разделе внимание сосредоточено на специфике применения GNN в контексте мультиагентного обучения с подкреплением MARL, где одной из ключевых задач является моделирование сложных взаимодействий между агентами.

В отличие от одиночных сценариев, где агент взаимодействует только со средой, в MARL каждый участник также влияет на поведение других агентов, что требует координации и обмена информацией. Графовые нейронные сети предоставляют естественный способ описания таких взаимодействий: агенты интерпретируются как узлы графа, а их связи — как рёбра, отражающие информационные или физические зависимости.

Одним из ключевых преимуществ использования GNN в DRL является возможность обобщения локального взаимодействия в глобальное поведение системы. Вместо обучения агентов в изоляции или при наличии полной информации о состоянии среды, графовая структура позволяет агрегировать только релевантную информацию от ближайших соседей. Это обеспечивает масштабируемость, децентрализацию и адаптивность моделей, особенно в подходах типа CTDE.

Применение GNN в MARL особенно эффективно в задачах, где структура взаимодействий динамически изменяется. В таких случаях архитектуры типа GAT (Graph Attention Network) [26] позволяют агенту адаптивно взвешивать информацию от различных соседей, улучшая устойчивость и выразительность модели. Например, в GAT-MARL каждый агент формирует свой контекстный вектор, комбинируя информацию с использованием внимательных весов а, а :

exp(aT[Whi | Wh] ^ = ^^(^[Wh, I Whk])' (1-27)

Кроме того, графовые модели применяются в комбинации с методами централизованной критики, как, например, в расширениях QMIX, где агрегированная Q-функция всей команды учитывает структуру графа для согласованного обучения политик агентов.

Использование GNN в MARL даёт ряд преимуществ:

- Локальность и масштабируемость: каждый агент обрабатывает только информацию от своей окрестности, что снижает вычислительную нагрузку и позволяет моделировать большие системы с множеством участников;

- Переносимость: модели, обученные на определённых конфигурациях агентов, могут быть адаптированы к новым сценариям без необходимости полного переобучения;

- Робастность к изменяющейся структуре среды: GNN естественным образом справляются с добавлением или удалением узлов (агентов), не нарушая архитектуру сети.

Тем не менее, использование GNN в DRL сопряжено и с рядом ограничений. Одним из основных является переусложнение модели: глубокие графовые архитектуры могут страдать от затухания градиента и переобучения, особенно в условиях высокой динамики. Кроме того, необходимость синхронизации состояний между агентами может стать узким местом в распределённых системах с ограниченной связностью или пропускной способностью.

Эти проблемы были предметом исследования в статье автора настоящей диссертации [14], в которой был предложен метод MAGNet. В отличие от классических GNN, использующих статические заранее заданные связи между агентами, MAGNet формирует граф взаимодействий адаптивно в процессе обучения с помощью механизма релевантности. Это позволило моделировать динамические взаимодействия в средах с высокой степенью неопределённости, таких как игра Pommerman, где агенты координируют действия в условиях неполной информации и изменяющегося стратегического контекста.

Метод MAGNet оказал влияние на последующие исследования. Например, в [22] предложенный подход был расширен за счёт включения механизмов самовнимания (self-attention), что позволило более эффективно учитывать сложные зависимости между агентами в динамических сценариях.

Таким образом, графовые нейронные сети выступают неотъемлемым компонентом современных архитектур в MARL, предоставляя эффективные механизмы для моделирования взаимодействий, координации и обобщения поведения агентов. В следующих разделах будет рассмотрено, как иерархические структуры могут дополнять GNN, обеспечивая масштабируемое и многоуровневое принятие решений.

1.3.4. Иерархическое обучение с подкреплением

Иерархическое обучение с подкреплением (HRL) представляет собой ключевую концепцию, направленную на решение задач масштабируемости, ускорения сходимости и повторного использования навыков в сложных и многошаговых средах. В отличие от «плоских» стратегий, принимающих решения на каждом шаге исключительно на основе текущего состояния, HRL предполагает наличие двух и более уровней управления, каждый из которых оперирует разной степенью абстракции.

Формальный фундамент иерархического подхода был заложен в работе [42], где был предложен фреймворк опций (options framework). В данной модели опция о описывается тройкой:

о=(10,ж0,Р0), (1.28)

где 10 — множество состояний, в которых может быть инициирована опция, ж0 — внутренняя стратегия опции, /30 — функция завершения, определяющая вероятность прекращения выполнения опции в заданном состоянии. Такая формализация позволяет описывать действия агента как последовательность подзадач, каждая из которых реализуется на протяжении нескольких шагов.

Эффективность HRL была убедительно продемонстрирована в работе [43], где представлена архитектура h-DQN. Она использует двойную иерархию Q-функций: стратегия верхнего уровня выбирает цели в пространстве состояний, а нижний уровень

реализует поведение, необходимое для их достижения. Обновление нижнего уровня осуществляется по классической формуле Беллмана:

Q(s, а) ^ Q(s, а) + а

г + j maxQ(s' ,а') — Q(s, а)

(1.29)

тогда как стратегия верхнего уровня обновляется с учетом достижимости целей.

Дополнительную устойчивость и адаптивность в непрерывных пространствах обеспечивают модели класса Актор-Критик с иерархическим управлением. В частности, алгоритмы A3C [62] и SAC [3] могут использоваться как компоненты иерархических политик. В SAC максимизируется регуляризованная функция полезности:

J(w) = ^2E(st,at)~PJr(st,at) + аЩрг(с ■ |st))], (1.30)

где Ш — энтропия стратегии, а а — коэффициент, регулирующий степень стохастичности. Такой подход позволяет сохранять баланс между исследованием и эксплуатацией, что критически важно при реализации подполитик.

Для повышения стабильности обучения в иерархических архитектурах с непрерывными действиями часто применяется TD3 [63], в котором используются две Q-функции:

Qtavget = r + 1 Qi(s',pi(s')), (1.31)

что уменьшает эффект переоценки и делает обучение более надёжным. TD3 показал высокую эффективность в задачах управления с плотной и отложенной наградой.

В контексте мультиагентного обучения с подкреплением (MARL) иерархические структуры играют особую роль, так как позволяют организовать координацию между агентами на нескольких уровнях.

Современные реализации HRL в MARL также интегрируются с подходами self-play и meta-RL. Первый позволяет агентам развивать репертуар подполитик, самостоятельно генерируя обучающие траектории, а второй — адаптировать поведение к новым условиям и стратегиям других агентов, используя предыдущий опыт.

Таким образом, HRL предоставляет мощную архитектурную основу для разработки интеллектуальных агентов, способных решать сложные задачи в динамических и частично наблюдаемых средах.

Выводы

В первом разделе был представлен систематический обзор методов обучения с подкреплением RL, с особым вниманием к их применению в глубоких и мультиагентных архитектурах. Основой изложения послужила формализация задач в виде марковского процесса принятия решений MDP)[32], описывающего поведение агента через последовательность состояний, действий и наград.

Были подробно рассмотрены фундаментальные алгоритмы, основанные на функции ценности, такие как Q-learning [33], и их расширения — в частности, DQN [17]. Улучшения DQN, включая Double DQN [37], Dueling DQN [38] и PER [39], продемонстрировали значительное повышение стабильности и эффективности обучения. В мультиагентных системах были проанализированы подходы независимого Q-обучения [60] и централизованного обучения с децентрализованным выполнением (CTDE) [19], включая алгоритм QMIX [41].

Следующий подраздел был посвящен архитектурам нейронных сетей, используемых в задачах RL. Рассматривались полносвязные сети (MLP) [34], сверточные сети (CNN) [35,48], рекуррентные сети (RNN), включая LSTM [49] и GRU [50], графовые нейронные сети (GNN) [7,36], а также трансформеры [5]. Были также рассмотрены специализированные архитектуры, такие как сиамская сеть SiamRPN [25] и RPN [56].

В подразделе, посвященном архитектурам Актор-Критик, были рассмотрены A2C и A3C [40], DDPG [1], TD3 [63] и SAC [3], а также их мультиагентные расширения: MADDPG [18], MA-SAC [16] и COMA [19]. Эти методы позволяют гибко балансировать между исследованием среды и эксплуатацией полученных знаний, особенно в условиях непрерывных пространств действий и частичной наблюдаемости.

Особое внимание было уделено использованию графовых нейросетей в мультиагентных средах [52], [20]. Такие модели, как GAT [26], позволяют адаптивно моделировать взаимодействия между агентами и учитывать динамическую структуру среды. Работа [22] расширила предложенный в статье автора данной диссертации подход MAGNet [14] за счет применения механизмов самовнимания (self-attention), что позволило улучшить обработку сложных зависимостей между агентами в изменяющихся условиях.

Раздел завершилась обзором иерархического обучения (HRL) [42], направленного на масштабирование обучения, ускорение сходимости и повторное использование навыков. Рассмотрены архитектура DQN [43] и иерархические версии Актор-Критик методов — A3C [62], SAC [3] и TD3 [63] — используемые для управления подполитиками и многоуровневыми действиями агентов.

Таким образом, данный раздел охватила ключевые направления развития RL: от теоретических основ до современных нейросетевых и мультиагентных реализаций. Представленные методы формируют основу для архитектур и решений, предложенных в рамках настоящего исследования.

Глава 2. Метод скрытых потенциалов для обучения двигательных навыков

Одной из ключевых задач в мультиагентных системах обучения с подкреплением (Multi-Agent Reinforcement Learning, MARL) является развитие устойчивых и обобщаемых двигательных стратегий. Агенты, взаимодействующие в общей среде, должны обладать способностью не только принимать решения, но и реализовывать их через точные и адаптивные движения. Это особенно актуально в сценариях, где поведение одного агента влияет на других — например, в согласованном передвижении, совместной манипуляции или соревновательных задачах.

Обучение таких стратегий требует надёжных методов управления движением в условиях высокой размерности, нестабильного окружения и редких сигналов награды. Хотя современные методы обучения с подкреплением (RL) и их глубокие модификации (DRL) успешно применяются в одиночных задачах, в MARL-сценариях они сталкиваются с серьёзными ограничениями. Здесь особенно остро встают вопросы устойчивости, скорости обучения и способности к переносу знаний между агентами и задачами.

В этом разделе предлагается метод скрытых потенциалов (Hidden Potentials) — подход к формированию вспомогательной функции награды на основе демонстрационных данных, предназначенный для устойчивого обучения движению в мультиагентных средах. В отличие от классического подхода, предложенный метод вводит скрытые переменные, извлекаемые из демонстрационных данных, такие как временные метки и фазовые характеристики движений. Это позволяет использовать демонстрации не как жёсткий эталон поведения, а как источник гибкой, направляющей информации, способной ускорить обучение и повысить устойчивость итоговой политики. Архитектура метода допускает дифференцируемую интеграцию в любые алгоритмы MARL, а значит может быть использована для согласования двигательных навыков между агентами в совместной задаче.

Мы опишем архитектурные и алгоритмические аспекты реализации данного подхода, представим формальные модели пространственного и пространственно-временного потенциала, а также продемонстрируем его эффективность на задачах

прыжка, приседания и ходьбы в среде OpenSim. Завершается раздел анализом полученных результатов и обсуждением перспектив дальнейшего развития метода.

2.1. Анализ существующих методов формирования награды

В последние годы глубокое обучение и методы обучения с подкреплением RL достигли значительных успехов в задачах управления движением, особенно в области моделирования гуманоидных роботов. Одним из наиболее заметных достижений стало применение глубоких нейросетевых моделей для решения сложных задач локомоции, таких как ходьба и бег — примеры можно увидеть в работах [2,64,65].

Особенно широко применяются алгоритмы актор-критик класса, описанные в подразделе 1.3.2, а именно PPO (Proximal Policy Optimization) [2], демонстрирующий высокую стабильность обучения за счёт ограниченного обновления политики, и DDPG (Deep Deterministic Policy Gradient) [1], эффективный в задачах с непрерывным пространством действий. Однако, данные методы, несмотря на свою выразительность, предъявляют высокие требования к вычислительным ресурсам и требуют значительного количества обучающих эпизодов. Это связано как с высокой размерностью пространства состояний (в случае гуманоидов — сотни параметров положения и скорости суставов), так и с редкостью полезного сигнала награды.

Для преодоления этих ограничений всё более широкое распространение получают подходы, основанные на использовании экспертных демонстраций. Их целью является сокращение времени обучения и повышение качества результирующего поведения за счёт переноса информации от человека к агенту. В частности, методы имитационного обучения (Imitation Learning) позволяют использовать заранее записанные траектории (например, из видеозаписей движений человека) в качестве ориентира для построения политики.

Ярким примером подобного подхода является работа [66], в которой предлагается воспроизводить сложные двигательные паттерны с использованием RL-агента, обучающегося имитировать поведение по демонстрации. Однако, как отмечено в ряде последующих исследований, прямое имитационное обучение сталкивается с рядом ограничений. Во-первых, для эффективного переноса требуется наличие качественных

и полноценных демонстраций, охватывающих все возможные варианты поведения. Во-вторых, агенты, обученные на фиксированных траекториях, часто не способны адаптироваться к условиям, отличающимся от тех, что были в демонстрациях, например, к изменённой массе, окружению или неожиданным помехам. Эти проблемы особенно критичны в мультиагентных или динамически изменяющихся средах, где, как мы рассмотрели в первом разделе, адаптация стратегии требует постоянной актуализации информации и гибкости модели.

Одним из перспективных путей повышения эффективности обучения агентов в задачах управления движением является использование экспертных демонстраций. Данный подход позволяет агенту ориентироваться на заранее известные траектории, полученные, например, из видеозаписей движений человека, и тем самым ускорять сходимость обучения. В ряде исследований [67,68] показано, что включение экспертных данных существенно повышает устойчивость итоговой стратегии и снижает количество необходимых итераций обучения.

Классическая работа [45] заложила фундамент данной идеи, введя формализм potential-based shaping (потенциало-ориентированное формирование наград), в рамках которого модифицированная функция награды сохраняет инвариантность по отношению к оптимальной стратегии. В частности, если новая функция награды R' определяется следующим образом:

R'(s, a, s') = R(s, a, s') + уФ(в') - Ф(в), (2.1)

где

hi : S ^ Ш — произвольная потенциальная функция;

7 — коэффициент дисконтирования;

-к* - оптимальная стратегия, максимизирующая ожидаемую награду с R, остаётся оптимальной и при использовании R'.

Это свойство инвариантности следует из того, что добавленный термин представляет собой телескопическую сумму и не влияет на относительные предпочтения между стратегиями. Формально, для любого эпизода т = (s0,a0, s1,a1,sT) накопленная награда при формировании наград принимает вид:

т т

^ п о ) = Л

ь—о г—о

— +1т+1Ф{зт+1) - Ф^) , (2.2)

где последние два члена не зависят от выбора действий в середине траектории и, следовательно, не влияют на оптимальность.

Данное теоретическое обоснование позволило использовать формирование наград в широком спектре задач RL, особенно в мультиагентных системах и средах с редкими наградами, где прямой градиентный сигнал оказывается недостаточным для стабильного обучения.

2.2. Формализация задачи обучения движению

Целью данного раздела является разработка метода обучения движения агента в среде с использованием демонстрационных данных, обладающего высокой устойчивостью и способностью к обобщению. В отличие от прямого имитационного обучения, которое требует точного воспроизведения траекторий, нас интересует способ интеграции демонстраций в обучение с подкреплением таким образом, чтобы они служили гибким направляющим сигналом, а не жёстким эталоном.

Формально, рассматривается задача обучения стратегии ж : Б ^ А в рамках среды, описываемой марковским процессом принятия решений (MDP) (£, А, Т, Я, 7), где:

- Б — множество состояний,

- А — множество действий,

- Т — переходная функция,

- Я — функция награды,

- 7 — коэффициент дисконтирования.

Дополнительно задано множество демонстраций И — {=0}|—1, полученных из поведения эксперта.

Задача в находении оптимальной стратегии ж : Б ^ А , за счет постраения функции награды Я'(в,а, в'), включающей в себя потенциальную компоненту Ф(в,К), где К — скрытая переменная, отражающая фазу или момент времени внутри демонстрации.

Требуется, чтобы стратегия, обученная с использованием R', обладала следующими свойствами:

- Быстрое сходимость и устойчивое поведение в высокоразмерной динамической среде;

- Способность достигать целей, аналогичных демонстрациям, без строгого копирования траекторий;

- Инвариантность стратегии при модификации потенциала в рамках допустимого reward shaping.

2.3. Метод скрытых потенциалов

Как было показано в предыдущем разделе, методы имитационного обучения стали одним из основных инструментов для ускорения и стабилизации обучения агентов в задачах локомоции. Однако, несмотря на многочисленные успехи, их применение в практике сталкивается с целым рядом ограничений, многие из которых обсуждались также в контексте первого раздела при анализе адаптивности и обобщающей способности моделей RL.

Прежде всего, прямое имитационное обучение предполагает, что агент должен воспроизводить демонстрацию с высокой точностью. Такой подход чувствителен к качеству данных: любые шумы, пробелы или неполнота траектории могут существенно снизить эффективность обучения. Более того, подобные методы плохо переносятся на новые условия среды — малейшее отклонение от демонстрационного распределения делает поведение агента нестабильным или вовсе нефункциональным. Это особенно критично в мультиагентных или динамически изменяющихся средах, где адаптация стратегии и гибкость поведения являются необходимыми условиями успешного функционирования агента, что было рассмотренно в разделе 1.3.

Для устранения обозначенных выше ограничений предлагается методологически обоснованный подход, сочетающий принципы обучения с подкреплением и использование экспертных демонстраций при одновременном отказе от жёсткой привязки к фиксированным траекториям. В основе данного подхода лежит развитие

концепции потенциал-ориентированного формирования наград (potential-based reward shaping) [45], которая дополняется введением скрытых переменных, характеризующих фазовую структуру поведения и семантические аспекты демонстрационных траекторий. Предлагаемый метод скрытых потенциалов формирует вспомогательные сигналы награды не только на основе текущего состояния агента, но и с учётом скрытых параметров, извлечённых из демонстрационных данных, что обеспечивает более гибкое и устойчивое обучение стратегии, превосходящей по обобщающей способности классические методы имитационного обучения.

Это позволяет реализовать важное свойство: агент не копирует действия эксперта, а ориентируется на его цели, извлекая из демонстраций обобщённые представления о правильном движении, при этом сохраняя свободу в способах их достижения. Такая стратегия обеспечивает лучшее обобщение, адаптацию к новым условиям и устойчивость к шуму в демонстрационных данных.

С технической точки зрения, предложенный метод интегрирует демонстрации в процесс обучения через модифицированную функцию награды, сохраняя теоретические гарантии сходимости [45]. Потенциал в этом случае зависит не только от текущего состояния агента s, но и от скрытой переменной h, включающей в себя, например, временной шаг или локальную фазу движения. Такая структура позволяет создавать динамически адаптируемое награждение, направляющее агента к цели, но не фиксирующее маршрут.

В данной работе мы представляем два конкретных механизма построения таких потенциальных функций на основе демонстрационных видео:

- Ближайший пространственный потенциал, фокусирующийся на геометрическом сходстве текущей позы агента и поз эксперта;

- Ближайший пространственно-временной потенциал, дополнительно учитывающий фазу движения и позволяющий учитывать динамику движения во времени.

2.3.1. Ближайший пространственный потенциал

Первый способ построения потенциальной функции из данных, полученных из видеозаписей, — это формирование множества позиций человека Д записанных на видео. В качестве входных данных для потенциальной функции используется расстояние от текущей позы агента до ближайшей позы на видео:

Ф(з) = ¡(тт\№-8р0ёе\\2) (2.3)

где 5розе — относительное положение частей тела агента (относительно таза), а ё — относительное положение частей тела эксперта.

Расстояние между двумя позами \\ • \\2 определяется как сумма расстояний между соответствующими конечностями. Как показано в статье автора диссертации [23], наилучший результат в подобных задачах дает квадратичная обратно пропорциональная функция /(х) = -1, где х — расстояние между позами.

Этот метод ускоряет процесс обучения агента, однако пока не учитывает последовательность движений. В следующем разделе мы покажем, как использование временной информации может дополнительно улучшить обучение.

2.3.2. Потенциал облака точек

Второй способ построения потенциальной функции основан на сравнении текущей позы агента с позами из демонстрации, представленных в виде трёхмерных облаков точек. Каждая поза — это множество ЗD-кoopдинат ключевых точек тела (например, суставов), полученных из видео.

В отличие от предыдущего метода, где позы сравниваются как фиксированные векторы, здесь поза рассматривается как геометрическая структура. Потенциал определяется как функция расстояния между текущим облаком точек агента вс1оий и ближайшим облаком из демонстрации р £ Ос1оиА:

Ф(8) = !

min £ Ddoud ChamferDist(p,scloud) . р

(24)

где ChamferDist (Chamfer Distance) — расстояние между двумя облаками точек, определяемое как среднее расстояние от каждой точки одного облака до ближайшей точки

другого. В качестве функции f(x) используется квадратичная обратно пропорциональная функция:

f(x) = 4 (2.5)

xz

где х — расстояние между текущей позой и ближайшей позой из демонстрации в формате облака точек.

Данный метод позволяет точнее учитывать форму и ориентацию тела, а также более устойчив к шумам и незначительным локальным искажениям. Однако, как и метод ближайшего пространственного потенциала, он не использует информацию о порядке движений в демонстрации.

2.3.3. Ближайший пространственно-временной потенциал

В данном подразделе мы рассматриваем метод формирования потенциальной функции для задач ЗD-лoкoмoции в среде OpenSim AI for Prosthetics, включающий использование временной информации. Для моделирования скрытого состояния вводится временная метка симуляции, интерпретируемая как скрытая переменная. Каждый кадр демонстрации обозначается индексом h, соответствующая поза — как Dh. Предполагается, что один шаг симуляции соответствует одному кадру демонстрации. Потенциальная функция определяется следующим образом:

<£((s,h)) = f(\\Dh-Sp0J2) (2.6)

Чтобы задать потенциалы для дополнительной информации, мы переходим от MDP (S, А, Т, R) к POMDP (Partially-observed Markov Decision Process).

POMDP формально вводится как кортеж (S х Н,A,T',R',S, О). Здесь Н — временная метка внутри демонстрации человеческого движения. Нам остается определить переходную функцию в POMDP, которая должна удовлетворять следующему условию:

^ т' ((s, h)t,at, (s, h)t+1) = T(st, av st+1) (27)

ht+i

При выполнении действий агент изменяет состояние на (в,Ь,)+1. Изменение

компонента состояния 8 происходит в соответствии с переходной функцией Т в исходном MDP. Скрытое состояние К изменяется следующим образом:

аЩЩЩОъ - вг+1! роде\\2 если - 4+1, роэе\\2 > 6

к

К = <

ащтт\\Пк - роде¡2 если = \Б\ (2.8)

К1+1 иначе

Разберем каждое из условий:

1. Если текущая поза агента значительно отличается от позы на видео (расстояние между ними больше 6), мы считаем, что агент отклонился от демонстрации, и переинициализируем скрытое состояние. Для этого выбираем ближайшую к текущей позе робота роде позу из всех представленных в видео.

2. Если К — последний кадр в видео, следующая поза для вычисления потенциальной функции выбирается как наиболее похожая среди всех кадров видео.

3. Если ни одно из двух предыдущих условий не выполняется, то мы переходим к

следующему кадру видео , то есть \ = К

Ч+1-

Таким образом, мы мотивируем агента повторять переходы между состояниями в той же последовательности, что и в демонстрации. Также данный метод устойчив к ситуациям, когда агент отклоняется от демонстрации.

2.4. Архитектура алгоритма и реализация

В данном разделе представлены ключевые инженерные решения, принятые при реализации предлагаемого метода скрытых потенциалов, включая описание структуры функции награды, пространственной репрезентации состояний и формы потенциальной функции. Также приводится информация о параметрах нейросетевых моделей и алгоритмах, использованных для обучения агента.

2.4.1. Формирование плотной функции награды

Как отмечалось в работе [69], качество функции награды напрямую влияет на стабильность и скорость обучения в задачах биомеханического моделирования. В соответствии с этим, на первом этапе обучения мы использовали модифицированную метрику скорости для задания базовой функции награды, имеющей следующий вид:

I1) — 1) II

w ^target ^current , ч

Г=1--^-ii--(2.9)

У ^target1

Данная формула представляет собой нормализованное отклонение текущей скорости агента от целевой, что обеспечивает гладкий градиент и позволяет избегать резких штрафов. Для задач ходьбы формула уточняется:

II 1) — 1) II

i ^target ^current , ч rwa!k = l--1"-1--(2.10)

У ^target У

Для оценки универсальности метода и его применения к различным типам движений были сконструированы специальные версии функции награды для прыжков и приседаний, включающие дополнительные штрафы или поощрения за вертикальные отклонения частей тела:

= 0 ¡^target — ^current I |0'3 — min{^\eft foot' ^right foot) 1 , ,

rjump = 2 ^ I 0"3 (2-11)

I ^targetI 03

= 0 I^target — ^currentI |0-6 — min{^pelvis' 1-0) 1 , ,

r crouch = 2 ^ I 0й (2 )

I ^targetI 0'4

Такая форма награды позволяет адаптировать обучение к контексту конкретной двигательной задачи, сохраняя при этом общую структуру.

2.4.2. Пространственная и временная репрезентация состояния

Для построения входного вектора состояния агента были использованы признаки, продемонстрировавшие высокую эффективность на соревнованиях NeurlPS 2019 [69]. Они включают как абсолютные, так и относительные параметры положения и движения тела, что позволяет агенту формировать устойчивое представление о текущей конфигурации тела:

Рисунок 2.1 - Оре^т. Боковой вид смоделированной опорно-двигательной системы. Красные линии — активированные мышцы, синие линии — неактивированные мышцы.

1. Абсолютная высота таза, головы и торса

2. Абсолютная скорость таза и торса

3. Абсолютные углы и угловые скорости таза

4. Целевая скорость

5. Координаты и скорости суставов относительно таза, торса и головы

6. Углы вращения суставов и их угловые скорости

7. Координаты и скорость центра масс относительно таза

Эти признаки позволяют агенту не только адаптироваться к текущему положению, но и учитывать кинематические зависимости между частями тела.

2.4.3. Потенциальная функция и параметры масштабирования

В рамках предлагаемого подхода используется потенциальная функция, зависящая от позы агента и соответствующей демонстрации. Для ограничения значения функции и создания гладкого градиента был использован следующий вид:

(2.13)

В данной формуле spoge — координаты частей тела агента относительно торса, a Dh — соответствующая поза из демонстрационной последовательности, нормализованная по росту. Постоянная с = 7.5 была определена эмпирически в процессе перебора, обеспечивая оптимальный баланс между степенью награждения и стабильностью обучения.

2.4.4. Обобщённая архитектура алгоритма

Для реализации обучения мы использовали алгоритм Deep Deterministic Policy Gradient (DDPG) [1], зарекомендовавший себя в задачах с непрерывным пространством действий. В качестве акторной сети применялась многослойная нейросеть с четырьмя скрытыми слоями по 512 нейронов, а для критика — аналогичная архитектура с четырьмя слоями по 1024 нейрона. Такая архитектура позволяет эффективно аппроксимировать как стратегию, так и оценку действия в высокоразмерных пространствах. Дополнительно, для повышения устойчивости и качества стратегии, мы реализовали ансамбль из десяти нейросетей, обученных с использованием стохастического градиентного спуска с перезапуском (Stochastic Gradient Descent with Warm Restarts). По завершению обучения мы выбрали четыре наилучших модели, комбинируя их выходы: итоговое действие агента определялось как среднее значение векторов действий, выданных этими четырьмя сетями. Такая схема обеспечивает улучшенную генерализацию и снижает риск переобучения.

2.5. Экспериментальные результаты

Предложенный метод скрытых потенциалов был экспериментально протестирован в задаче моделирования движения с использованием среды OpenSim [69], предназначенной для биомеханического симулирования человеческой локомоции. В рамках исследования были выбраны три характерные задачи: прыжок, приседание и ходьба — каждая из которых предъявляет различные требования к балансу, устойчивости и координации агента. Результаты сравнивались с тремя другими подходами: базовой стратегией (без демонстрационного обучения), методом на основе евклидовой дистанции до демонстрации, а также методом с использованием облака точек. Визуализация процесса

Time, hours

Рисунок 2.2 - Обучение прыжку

обучения представлена на графиках, где по оси абсцисс отложено время обучения (в часах), а по оси ординат — достигнутый агентом оценочный балл (score), отражающий степень соответствия заданной двигательной задаче.

2.5.1. Обучение прыжку

На Рисунке 2.2 видно, что метод Hidden Potentials (красная линия) значительно опережает все остальные подходы начиная с 4-го часа обучения. К моменту завершения тренировки агент, использующий скрытые потенциалы, стабильно достигает более высоких оценок, демонстрируя лучшую адаптацию к задаче прыжка. Особо заметен разрыв с подходом Distance-based potentials (салатовая линия), который демонстрирует нестабильное поведение и ограниченный потенциал роста. Подход Point Cloud Potentials (оранжевая линия) показывает лучшее качество, чем евклидовая дистанция, но уступает методу скрытых потенциалов. Базовый RL-агент (серая линия) также проигрывает по всем метрикам.

Рисунок 2.3 - Обучение приседанию

2.5.2. Обучение приседанию

Рисунок 2.3 демонстрирует ещё более выраженное превосходство метода скрытых потенциалов в задаче приседания. Уже к пятому часу обучения агент, использующий этот подход, превосходит остальные стратегии более чем на 400 баллов. Видно, что Hidden Potentials позволяет быстрее перейти от неустойчивых к устойчивым стратегиям поведения, в то время как альтернативные методы демонстрируют либо плато (Baseline), либо нестабильный рост (Distance-based). Особенно наглядно проявляется устойчивость обучения, выраженная в малой дисперсии результатов (узкая зона затенения вокруг кривой).

2.5.3. Обучение ходьбе

На рисунке 2.4 представлены результаты обучения ходьбе — наиболее продолжительной и плавной по динамике задачи. Здесь все методы демонстрируют постепенное улучшение, однако скрытые потенциалы вновь занимают лидирующую позицию, особенно в фазе выхода на плато (с 5 по 9 час). Интересно, что в отличие

Рисунок 2.4 - Обучение ходьбе

от прыжка и приседания, различия между методами более сглажены, что может быть связано с меньшей сенситивностью задачи к фазовым аспектам движения. Тем не менее, даже в этом случае подход Hidden Potentials показывает как наивысший результат, так и наименьшую дисперсию, что указывает на стабильность формирования стратегии.

В целом, результаты всех трёх экспериментов подтверждают:

- Ускорение обучения в 2-3 раза по сравнению с базовыми RL-методами, что особенно важно в задачах с высокой размерностью пространства состояний и слабым наградным сигналом [23];

- Стабильность стратегии, выраженную в низкой дисперсии показателей и устойчивости к начальным отклонениям;

- Способность к обобщению, особенно в задачах, не совпадающих напрямую с демонстрациями, что говорит о переносимости обученной политики [66].

Таким образом, метод скрытых потенциалов демонстрирует как количественные, так и качественные преимущества по сравнению с существующими подходами и

представляет собой перспективное направление для дальнейших исследований в области нейроуправления и биомеханического моделирования.

2.6. Выводы

В данном разделе был представлен метод скрытых потенциалов — механизм формирования функции награды на основе демонстрационных данных, предназначенный для использования в мультиагентных системах обучения с подкреплением (MARL). Предложенный подход расширяет классическую концепцию потенциал-ориентированного формирования наград, вводя скрытые переменные, отражающие фазовую структуру поведения, и тем самым обеспечивая агенту гибкий, обобщённый ориентир вместо жёсткой имитации.

Разработка метода скрытых потенциалов, его формализация, реализация и верификация являются авторским вкладом и были впервые представлены в статье [23], вошедшей в основу настоящей диссертации.

Эксперименты в среде OpenSim подтвердили эффективность метода в задачах одиночного агента, показав значительное ускорение обучения, повышенную устойчивость стратегий и способность к обобщению. Однако ключевое предназначение предлагаемого подхода — служить основой для формирования двигательных навыков в мультиагентных системах. В MARL-сценариях такие навыки необходимы для достижения согласованных целей, распределения ролей и избежания конфликтов между агентами.

Метод скрытых потенциалов может быть непосредственно интегрирован в архитектуры MARL как модуль генерации поведения на уровне низкоуровневого контроля, в то время как высокоуровневая политика отвечает за планирование и взаимодействие. Это соответствует современным тенденциям в области иерархического MARL и симультанного обучения восприятия, движения и стратегии.

Дальнейшее развитие предложенного подхода нашло отражение в современных исследованиях: например, в [46] были предложены адаптивные функции награды, учитывающие поведение нескольких агентов одновременно, а в статье [47] — интеграция потенциал-ориентированного формирования наград с иерархическими стратегиями,

направленная на координацию. Обе эти работы прямо ссылаются на статью автора диссертации [23] как на концептуальную основу что подчёркивает её влияние на развитие методов MARL.

Таким образом, предложенный метод представляет собой не только эффективный механизм ускорения обучения, но и универсальный компонент, применимый при построении многоуровневых моделей поведения. Его архитектурная совместимость с методами иерархического управления делает его удобным базовым элементом для проектирования координированных стратегий в системах с несколькими взаимодействующими агентами.

Глава 3. Графовые нейронные сети в миогоагеитиом обучении с подкреплением: архитектура MAGNet

Задачи координации, конкуренции и коллективного поведения, возникающие в мультиагентных средах, требуют представлений, способных описывать не только свойства отдельных агентов, но и структуру их взаимодействий. Одним из наиболее перспективных подходов к решению таких задач стало применение графовых нейронных сетей (GNN), которые позволяют эффективно обрабатывать структурированные данные, где важную роль играют связи между сущностями [70,7,36].

Первоначально применявшиеся в социальных сетях, рекомендательных системах и молекулярной химии, GNN быстро нашли применение в задачах обучения с подкреплением — особенно там, где агенты действуют в частично наблюдаемой, динамической среде с ограниченным прямым взаимодействием. Возможность динамически формировать граф из агентов и объектов среды делает GNN эффективным инструментом в сценариях, требующих контекстной адаптации и масштабируемости [15,59].

Традиционные методы MARL, такие как MADDPG [71], QMIX [41] и MADQN (Multi-Agent Deep Q-Network) [72], неявно предполагают фиксированную или тривиальную структуру взаимодействий между агентами, что ограничивает их применимость в условиях высокой динамики. В отличие от них, GNN позволяют строить модели, в которых агент принимает решение, агрегируя информацию от релевантных соседей по графу [8,73].

В данном разделе рассматриваются современные подходы к использованию графовых нейронных сетей в мультиагентном обучении с подкреплением. Основное внимание уделено предложенной архитектуре MAGNet (Mutli-Agent Graph Network), сочетающей GNN, механизм самовнимания [5] и Актор-Критик структуру. Описаны как архитектурные особенности метода, так и инженерные аспекты реализации, включая выбор среды, стратегию обучения и анализ результатов.

Также рассмотрим практические аспекты реализации метода, включая используемую среду, особенности обучения, настройку гиперпараметров и выбор базовых

алгоритмов для сравнительного анализа. Раздел завершается анализом полученных результатов, визуализацией графов релевантности и обсуждением преимуществ предлагаемого подхода в сравнении с существующими решениями.

3.1. Анализ графовых моделей в мультиагентных системах

Одной из ключевых задач в области обучения с подкреплением является разработка эффективных методов взаимодействия между агентами в мультиагентных средах. Такие среды, как правило, характеризуются высокой степенью неопределённости, частичной наблюдаемостью и динамически меняющимися условиями, что делает традиционные методы, основанные на независимом обучении, малоэффективными в задачах, требующих координации и совместного принятия решений [60,74]. Это особенно актуально для сценариев, где агенты должны не только максимизировать индивидуальное вознаграждение, но и учитывать стратегию других участников, а также структуру среды.

На фоне активного развития глубоких нейронных сетей, большое внимание получило глубокое мультиагентное обучение с подкреплением (Deep MARL), которое комбинирует нейросетевые аппроксиматоры и алгоритмы обучения с подкреплением [15,59]. Основной задачей этих методов является адаптация агентов к динамике среды и координация между ними через обучение оптимальных политик. Однако, несмотря на прогресс, многие популярные подходы страдают от ограничений, связанных с недостаточной выразительностью модели взаимодействия и неспособностью учитывать структуру связей между агентами.

Multi-Agent Deep Q-Networks (MADQN) [72] представляют собой адаптацию алгоритма DQN [75] к мультиагентным системам и предполагают, что каждый агент обучается независимо, фиксируя поведение других агентов. Хотя этот метод прост и эффективен в небольших средах с дискретными действиями, он плохо масштабируется и страдает от проблемы нестационарности среды, обусловленной обучением всех агентов параллельно.

Multi-Agent Deep Deterministic Policy Gradient (MADDPG) [71] предлагает решение проблемы непрерывных пространств действий, используя централизованного

критика и децентрализованных акторов. Такой подход позволяет учитывать информацию о действиях всех агентов на этапе обучения, что способствует более стабильному обучению и лучшей координации. Однако этот метод остаётся вычислительно затратным и плохо переносится в среды с высокой динамикой и ограниченной наблюдаемостью.

QMIX [41] предлагает компромисс между централизованным и децентрализованным подходами путём факторизации глобальной Q-функции в совокупность индивидуальных функций агентов, объединённых монотонной функцией. Этот метод продемонстрировал высокую эффективность в кооперативных задачах, где действия агентов должны быть скоординированы. Однако его архитектура не позволяет в полной мере использовать структурные свойства среды, такие как пространственные зависимости между объектами и агентами.

В связи с этим, всё большую популярность приобретают подходы, основанные на графовых нейронных сетях [70,7], которые позволяют моделировать взаимодействия между агентами в виде графа, где вершины соответствуют агентам или объектам, а рёбра — их связям. Такие архитектуры обладают важными преимуществами: они обеспечивают обобщаемость на новые конфигурации среды, позволяют учитывать динамическую структуру взаимодействий и сокращают избыточность информации за счёт механизмов внимания [5]. В контексте MARL это означает возможность агентам не просто обмениваться информацией, а делать это избирательно и эффективно.

Однако применение GNN в MARL сталкивается с рядом трудностей. Среди них — высокая вычислительная сложность при увеличении числа агентов, сложности в обработке слабо связанных графов и необходимость динамического обновления структуры графа при изменении условий среды [76]. Несмотря на это, исследования последних лет показывают, что интеграция GNN в MARL открывает новые возможности для построения устойчивых, обобщаемых и адаптивных систем [8,73].

Указанные ограничения и нерешённые вопросы актуализируют необходимость разработки новых архитектур, способных эффективно интегрировать графовые представления взаимодействий в мультиагентное обучение с подкреплением. Особый интерес представляет создание моделей, обеспечивающих устойчивый обмен

информацией между агентами, масштабируемость к числу участников и адаптацию к динамически меняющейся структуре среды при разумных вычислительных затратах. В рамках настоящего исследования предлагается метод MAGNet (Multi-Agent Graph Network), основанный на использовании графовых нейронных сетей и механизма самовнимания в архитектуре актор-критик. Предлагаемый подход направлен на решение задачи координации агентов в условиях частичной наблюдаемости и динамики взаимодействий, что будет подробно изложено в следующем разделе, посвящённом формальной постановке задачи.

3.2. Формулировка задачи построения релевантного взаимодействия

Одной из фундаментальных проблем в мультиагентном обучении с подкреплением является координация действий агентов в условиях динамически изменяющейся среды. Агенты, функционирующие в подобных условиях, должны не только адаптироваться к изменениям окружающей обстановки, но и учитывать действия и стратегии других агентов, что требует реализации эффективных механизмов обмена информацией. Дополнительную сложность представляет высокая размерность пространства состояний и действий, возникающая при увеличении числа агентов, что существенно затрудняет использование традиционных методов обучения [74,15].

Особенно остро данная проблема проявляется в сценариях, предполагающих необходимость тесного взаимодействия между агентами — таких как командные игры, совместное выполнение задач, управление группой автономных агентов и других кооперативных средах [77]. В таких случаях методы независимого обучения, при которых каждый агент обучается, не учитывая поведение остальных, демонстрируют ограниченную эффективность [60]. Это связано с отсутствием возможности учитывать структуру взаимодействий, что ведёт к недостаточной согласованности и субоптимальному поведению системы в целом.

В рамках настоящей работы рассматривается архитектура, направленная на решение вышеуказанных проблем за счёт явного моделирования взаимодействий между агентами и объектами среды. Предлагаемый метод MAGNet использует графовые нейронные сети для

построения динамически обновляемого графа взаимодействий и механизм самовнимания (self-attention) для релевантной фильтрации информации. В отличие от традиционных MARL-алгоритмов, в которых обмен информацией между агентами осуществляется напрямую или отсутствует вовсе, метод MAGNet позволяет учитывать только наиболее значимые связи, тем самым снижая избыточность данных и повышая вычислительную эффективность [8,73].

В основе метода лежит представление агентов и объектов окружения в виде графа, в котором вершины соответствуют отдельным сущностям среды, а рёбра описывают степень их взаимной релевантности. Веса рёбер динамически адаптируются в зависимости от текущих состояний агентов и истории их взаимодействий, что позволяет модели учитывать как краткосрочные, так и долгосрочные зависимости между элементами среды.

Предлагаемая архитектура нацелена на решение следующих ключевых задач:

1. Оптимизация передачи информации: извлечение и агрегация только релевантных сигналов среды, необходимых для принятия решений.

2. Эффективное распределение внимания: реализация механизма самовнимания, позволяющего фокусировать вычислительные ресурсы на наиболее значимых элементах окружения.

3. Гибкость и адаптивность: возможность динамического обновления графовой структуры взаимодействий без необходимости переобучения всей модели.

Таким образом, метод MAGNet формулируется как решение задачи координации агентов в условиях высокой сложности и неопределённости, с акцентом на структурированное и избирательное взаимодействие на основе графовых представлений. В последующих разделах будет подробно рассмотрена архитектура модели, включая этапы построения графа релевантности, обмена сообщениями между агентами и принятия решений на основе агрегированной информации.

3.3. Архитектура MAGNet

Метод MAGNet (Multi-Agent Graph Network) представляет собой архитектуру мультиагентного обучения с подкреплением, основанную на использовании графовых нейронных сетей и механизма самовнимания. Он направлен на обеспечение гибкой, адаптивной и масштабируемой координации агентов в условиях частичной наблюдаемости и динамически изменяющейся среды. Основная идея метода заключается в построении и обновлении структурированного представления среды в виде графа, где узлы соответствуют агентам и объектам, а рёбра отражают степень их взаимодействия.

Архитектура MAGNet реализует поэтапную схему обработки информации, включающую четыре ключевых компонента:

1. Генерация графа релевантности — формирование взвешенного графа взаимодействий между агентами и объектами на основе текущих наблюдений и истории действий.

2. Передача сообщений — распространение информации между вершинами графа с использованием механизма самовнимания, что позволяет агентам избирательно воспринимать наиболее значимые сигналы от соседей.

3. Актуализация информации — обновление внутренних представлений агентов с учётом как текущих входов, так и временного контекста, реализованное через рекуррентные модели.

4. Принятие решений — преобразование агрегированной информации в выбор действия с помощью нейросетевых Блоков, специфичных для типа агента и его положения в графе.

Данная последовательность операций позволяет агентам формировать представление о локальном и глобальном контексте, учитывать релевантные взаимодействия и принимать обоснованные действия, согласованные с поведением других участников среды. Ниже подробно рассматриваются отдельные этапы предложенной архитектуры.

Рисунок 3.1 - Общая архитектура метода MAGNet. Левая часть показывает этап генерации графа релевантности, правая — этап принятия решений.

3.3.1. Генерация графа релевантности на основе наблюдений

На первом этапе формируется граф релевантности, отражающий значимость взаимодействий между агентами и объектами среды. Этот граф представляется в виде матрицы размерности |Л| х (|Л| + |0|), где |Л| — число агентов, а |0| — количество объектов в окружении. Для каждого агента г определяется степень релевантности объекта 2, вычисляемая по формуле:

ехр(ац)

= (зл)

где

а^ — коэффициент релевантности объекта ^ для агента г.

Таким образом, итоговый граф содержит взвешенные связи, отражающие приоритеты агентов при восприятии окружающей среды. Построение графа осуществляется на основе входных признаков, включающих три последних наблюдаемых состояния среды, два предыдущих действия агента и граф релевантности на предыдущем шаге. Для обеспечения устойчивости графа и его согласованности с динамикой среды вводится функция потерь, минимизирующая изменение весов между последовательными шагами:

Ь= (3.2)

Эта функция потерь минимизирует изменения графа между шагами. Это позволяет сохранить плавность адаптации структуры графа и избежать резких изменений в оценках релевантности, что критично для стабильного обучения.

3.3.2. Механизмы передачи и агрегации сообщений

Следующим этапом является распространение информации по сгенерированному графу. Здесь используется механизм самовнимания, который позволяет агенту агрегировать только наиболее значимую информацию от соседей. Передача сообщений осуществляется по взвешенным рёбрам графа. Сообщение от агента г к агенту или объекту 2 вычисляется как:

™>ч = Щу/Ы (3.3)

где

/(Л) — функция преобразования состояния агента г.

Передача сообщений выполняется в несколько итераций, что позволяет агентам учитывать влияние соседних объектов и других агентов. Каждый агент агрегирует входящие сообщения, используя механизм многократного распространения:

ч+1=Лч. Е

V ¿еЩг

та I (3-4)

где

#(•) — функция обновления информации; М(г) — множество соседей агента г.

Таким образом, агенты получают обобщенную информацию о среде, используя графовые представления взаимодействий.

3.3.3. Актуализация информации и внимание к контексту

Обновление состояния каждого агента происходит с учётом временных зависимостей. Для этого используется рекуррентная архитектура, основанная на модифицированной LSTM-cети. Для агента г обновлённое скрытое состояние на следующем временном шаге рассчитывается по формуле:

^^ТМ^ЛМ, Е (3.5)

V ¿еЩг) У

Здесь LSТмUPг()ate — рекуррентная нейросеть, позволяющая учитывать временные зависимости при обновлении состояния агента. Это позволяет агентам сохранять информацию о прошлых взаимодействиях и адаптироваться к изменениям в среде.

3.3.4. Принятие решений в условиях координации

Агент использует граф С = (У, £"), где вершины V представляют агентов и объекты среды, а ребра Е — их связи. Вершины имеют тип

аде {0,1, 2,3,4,5,6}, где

0 — союзник,

1 — противник,

2 — бомба,

3 — усиление удара,

4 — увеличение радиуса взрыва,

5 — дополнительная бомба.

Ребра имеют тип с(е) е {0,1}, где

0 — связь между агентами,

1 — связь агента с объектом.

Формирование вектора действий включает четыре этапа:

1. Инициализация информационного вектора: Для каждой вершины ь формируется начальный вектор :

^ = MLPÍ$0г)) (3.6)

2. Генерация сообщений: На шаге £ + 1 вычисляется сообщение для каждого ребра (и, и):

Ч)U)=MLP^Ы) (3.7)

3. Обработка сообщений: Информационный вектор обновляется с учетом входящих сообщений:

= LSTMUp) Е Ч,*ГК*)) (3.8)

4. Выбор действия: Окончательный вектор используется для выбора действия по стратегии агента:

= М^сТо1се(Ю (3.9)

Все нейросетевые компоненты обучаются с использованием метода обратного распространения ошибки в рамках актор-критик архитектуры, что обеспечивает эффективную оптимизацию стратегии поведения агентов.

Таким образом, архитектура MAGNet обеспечивает тесную интеграцию графового представления среды, механизмов внимания и рекуррентных моделей для построения адаптивной, масштабируемой и устойчивой мультиагентной системы обучения с подкреплением.

Представленная архитектура MAGNet демонстрирует, каким образом можно эффективно использовать графовые представления среды в сочетании с нейросетевыми механизмами обработки информации для решения задач координации в мультиагентных системах. Благодаря поэтапной структуре, включающей генерацию графа, самовнимание, рекуррентное обновление и выбор действий, модель способна адаптироваться к изменениям в среде, учитывать как локальные, так и глобальные зависимости, а также масштабироваться на большое число агентов. Такой подход обеспечивает качественно новый уровень взаимодействия между агентами по сравнению с традиционными MARL-

методами и открывает перспективы для применения в реальных задачах, где необходимы высокая гибкость, согласованность действий и устойчивость к неопределённости.

3.4. Реализация алгоритма и инженерные аспекты

Реализация архитектуры MAGNet потребовала принятия целого ряда инженерных решений, направленных на обеспечение стабильного обучения, воспроизводимости экспериментов и точной оценки эффективности предложенного подхода по сравнению с существующими методами. В данном разделе представлены особенности выбранной среды, архитектурные и алгоритмические детали процесса обучения, используемые гиперпараметры, а также методы, применявшиеся для сопоставительного анализа.

3.4.1. Среда Роттегтап

Для проведения экспериментов была выбрана среда Роттегтап — игровая арена, широко используемая в исследованиях по мультиагентному обучению с подкреплением [78]. Среда представляет собой двухмерную сетку, по которой передвигаются до четырёх агентов, каждый из которых способен выполнять ограниченный набор действий: перемещение в одном из четырёх направлений, закладка бомбы или бездействие.

Одной из особенностей Роттегтап является наличие разрушаемых и неразрушаемых объектов. Так, деревянные стены могут быть уничтожены взрывом, что открывает проход и может породить полезные предметы — бонусы, такие как дополнительные бомбы, увеличение радиуса взрыва и возможность отталкивания объектов. Прочные стены, в свою очередь, остаются непроходимыми в течение всей игры. Бомба, установленная агентом, взрывается через 10 шагов и может уничтожить объекты в радиусе действия, а также устранить других агентов, попавших под удар.

Важно отметить, что игровая карта генерируется случайным образом для каждого эпизода, что требует от обучаемых агентов высокой степени адаптивности и устойчивости к вариативности среды. Эксперименты проводились в режиме командного боя, поскольку именно он предоставляет возможность исследовать координацию между агентами и

оценить эффективность механизмов обмена информацией, заложенных в архитектуре MAGNet.

3.4.2. Обучение и настройка архитектуры

Процесс обучения модели MAGNet был организован в несколько этапов. На начальном этапе обучение фокусировалось на генерации графа релевантности. Для этого использовался стандартный агент Pommerman, выполняющий базовые действия, служащий эталоном поведения. На основе наблюдений за этим агентом модель обучалась выделять значимые элементы среды и определять релевантные связи. Этот этап длился 50 000 эпизодов, после чего управление переходило к обучаемому агенту, использующему всю архитектуру MAGNet. Таким образом, обеспечивалась постепенная адаптация модели к задаче и формирование осмысленного начального состояния графа.

Оценка эффективности различных конфигураций модели проводилась на основе процента побед над стандартным агентом. В таблице ниже приведены результаты для разных комбинаций модулей самовнимания (Self-Attention), использования общего графа (Graph-Sharing) и генерации сообщений (Message-Generation). Видно, что наиболее полная конфигурация, включающая все три компонента, достигает наивысшего процента побед, подтверждая значимость комплексного подхода.

Таблица 3.1 - Анализ эффективности различных конфигураций модели MAGNet на основе процента побед над базовым агентом после 50 000 эпизодов обучения

Self-Attention Graph-Sharing Message-Generation Win Percentage

+ + + 71.3% ± 0.7%

+ + - 56.7% ± 1.8%

+ - + 62.4% ± 1.7%

+ - - 54.5% ± 2.6%

- + + 67.1% ± 1.9%

- + - 52% ± 1.7%

- - + 45.2% ± 3.6%

- - - 32.7% ± 5.9%

В таблице ниже представлены результаты различных вариантов метода MAGNet в процентах побед над стандартным агентом после 50 000 эпизодов. Различия между вариантами заключаются в сложности подхода: от простейшего варианта, где граф релевантности используется напрямую, до версий с генерацией сообщений, общим графом и механизмом самовнимания.

При реализации каждой из конфигураций особое внимание уделялось подбору гиперпараметров, оказывающих влияние на стабильность и сходимость обучения. В частности:

1. Генерация графа (GNN): применялась многослойная полносвязная нейросеть (MLP) с архитектурой 512-128-128 нейронов, дополненная механизмом самовнимания SA (Self-Attention), что позволило эффективно фильтровать нерелевантные связи и сократить шум в передаваемой информации [5].

2. Суммаризация графа, GS (Graph Summarization): реализованы два режима

— построение индивидуального графа для каждого агента и генерация общего графа, разделяемого всеми участниками команды. Последний подход обеспечивал лучшее взаимодействие и скоординированность поведения.

3. Генерация сообщений, MG (Message Generation): исследовались два варианта

— простой MLP и специализированная архитектура передачи сообщений. Наилучшие результаты показала модель с двумя слоями (128 и 32 нейрона) и пятишаговой итеративной передачей сообщений между узлами.

Дополнительно были оптимизированы следующие параметры:

- Dropout: подбирался путём перебора значений в диапазоне [0, 0.2, 0.4] с целью снижения переобучения;

- Размер свёрток: сравнивались 3*3 и 5*5, предпочтение отдано вторым;

- Функция активации: во всех слоях использовался ReLU как стабильный и эффективный вариант.

3.5. Экспериментальные результаты

В данном разделе представлены экспериментальные результаты, демонстрирующие эффективность предложенного метода MAGNet в мультиагентной среде Pommerman. Проведено сравнение с существующими алгоритмами обучения с подкреплением, а также абляционные исследования, направленные на оценку вклада отдельных компонентов модели. Дополнительно выполнена визуализация обученных графов релевантности, иллюстрирующая интерпретируемость и координационные свойства метода.

3.5.1. Сравнение с существующими MARL-методами

Для проведения сравнительного анализа производительности метода MAGNet были выбраны три широко используемых алгоритма обучения с подкреплением, адаптированных под мультиагентные задачи. Их производительность сравнивалась в идентичных условиях с лучшей версией MAGNet.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат наук Малышева Александра Ивановна

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Исследование рабочей памяти и механизмов быстрой адаптации в обучении с подкреплением2022 год, кандидат наук Сорокин Артём Юрьевич

Интеграция иерархических ансамблей и трансформерных архитектур в алгоритмы обучения с подкреплением2024 год, кандидат наук Козлов Даниил Александрович

Введение диссертации (часть автореферата) на тему «Методы мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамических сред»

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Машинное обучение для оптимизации распределения ресурсов в беспроводных системах связи2024 год, кандидат наук Сунь Цюши

Тематические и нейросетевые модели языка для разведочного информационного поиска2022 год, кандидат наук Янина Анастасия Олеговна

Модели адаптивного поведения на базе эволюционных и нейросетевых методов2007 год, кандидат физико-математических наук Мосалов, Олег Петрович

Список литературы диссертационного исследования кандидат наук Малышева Александра Ивановна, 2025 год