Исследование рабочей памяти и механизмов быстрой адаптации в обучении с подкреплением тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Сорокин Артём Юрьевич

  • Сорокин Артём Юрьевич
  • кандидат науккандидат наук
  • 2022, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 122
Сорокин Артём Юрьевич. Исследование рабочей памяти и механизмов быстрой адаптации в обучении с подкреплением: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2022. 122 с.

Оглавление диссертации кандидат наук Сорокин Артём Юрьевич

Введение

Глава 1. Агентный подход и обучение с подкреплением

1.1 Обучение с подкреплением

1.1.1 Обобщенная итерация по стратегиям

1.1.2 Табличное обучение с подкреплением

1.1.3 Глубокое обучение с подкреплением

1.2 Обучение агентов решению нескольких задач

1.2.1 Параллельное обучение на нескольких задачах

1.2.2 Иерархическое обучение с подкреплением

1.2.3 Мета-обучение

1.3 Состояние исследований

Глава 2. Стохастические графы и быстрая адаптация

2.1 Сеть функциональных систем

2.1.1 Теоретические предпосылки

2.1.2 Архитектура сети функциональных систем

2.1.3 Обучение сети функциональных систем

2.2 Обучение с подкреплением для сети функциональных систем

2.3 Стохастические графы

2.4 Топологии сред

2.5 Эксперимент

2.6 Результаты

2.7 Q-leaгning с памятью

2.8 Выводы

Глава 3. Общая рабочая память для многозадачного и

непрерывного обучения

3.1 Обзор литературы

3.1.1 Многозадачное обучение с подкреплением

3.1.2 Иерархическое обучение с подкреплением

Стр.

3.1.3 Память в обучении с подкреплением

3.2 Общая рабочая память для многозадачного обучения с подкреплением

3.2.1 Процедура, объединяющая мета-обучение и многозадачное обучение с подкреплением

3.2.2 Архитектура общей рабочей памяти агента

3.2.3 Факторизованный ЬБТМ слой

3.2.4 Детали 8ЕМ-Л2О Архитектуры

3.3 Эксперименты

3.3.1 Многозадачное обучение

3.3.2 Непрерывное обучение

3.4 Выводы

Глава 4. Обучение долговременной памяти через предсказание

событий высокой неопределенности

4.1 Обучение памяти через предсказание событий высокой неопределенности

4.1.1 Память как механизм минимизации неопределенности

4.1.2 Оптимизация нейросетевой памяти

4.2 МешИР для рекуррентных сетей

4.2.1 Пространственная сложность алгоритма МешИР

4.3 Реализация рекуррентной архитектуры МетиР

4.3.1 Детектор неопределенности

4.3.2 Модуль памяти

4.3.3 Предиктор

4.3.4 Агент

4.4 Обзор работ, рассматривающих обучение долговременной памяти

4.5 Эксперименты: обучение с учителем

4.6 Эксперименты: обучение с подкреплением

4.6.1 Зашумленный Т-лабиринт

4.6.2 Трёхмерная среда ViZDoom

4.6.3 Результаты и обсуждение

4.7 Исследование роли отдельных модификаций, составляющих алгоритм МешИР

Стр.

4.8 Чувствительность метода к проблеме Шумного Телевизора

4.9 Выводы

Заключение

Список сокращений и условных обозначений

Словарь терминов

Список литературы

Список рисунков

Список таблиц

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Исследование рабочей памяти и механизмов быстрой адаптации в обучении с подкреплением»

Введение

Область искусственного интеллекта занимается разработкой автоматизированных систем, способных выполнять те же интеллектуальные задачи, которые традиционно могли выполнять только люди.

Исследования искусственного интеллекта сейчас переживают очередной бум связанный с развитием методов глубокого обучения [1]. Начиная с 2012 года, когда модель Кружевского и др. [2] е большим отрывом выиграла конкурс по классификации изображений ImageNet [3], алгоритмы обучения на основе глубоких нейронных сетей достигли значительного прогресса в областях распознавания образов [4; 5], распознавания и синтеза речи [6; 7], машинного перевода [8; 9]. В некоторых задачах современные алгоритмы глубокого обучения не уступают лучшим экспертам-людям [10—12].

При всех успехах глубокого обучения, современные модели значительно уступают человеку с точки зрения скорости обучения, требуя миллионы примеров для выучивания задачи с нуля [13]. Смежной проблемой моделей глубокого обучения является адаптация уже обученной модели к новым условиям и задачам. Люди за жизнь овладевают сотнями различных навыков и быстро могут адаптироваться к новым условиям. Искусственным нейросетям для адаптации к новым условиям требуются тысячи примеров для изменения поведения [14]. Более того, искусственные нейросети страдают от проблемы «катастрофического забывания», когда адаптация к новым условиям перезаписывает параметры модели, в которых хранилась информация о прежнем поведении [15]. Это приводит к тому, что нынешние модели могут решать лишь несколько последовательно выученных смежных задач без значительной потери качества при решений каждой из них.

На данный момент есть множество разных подходов для ускорения адаптации интеллектуальных агентов от выучивания гипперпараметров обучения [16] и начальной инициализации [17] моделей до использования различных механизмов памяти [18].

Нейробиологическая теория комплементарных обучающихся систем [19; 20] рассматривает феномен быстрой адаптации как результат взаимодействия двух систем: первой системы, медленно выучивающей структурированное представление окружающей среды, и второй системы, способной быстро запомнить

детали индивидуального опыта. Предполагается, что именно вторая система позволяет людям быстро адаптироваться к изменениям в среде. В случае искусственных нейросетей, первой системе соответствует медленная адаптация весов нейросети градиентным спуском, а второй системе соответствует механизм памяти в рекуррентных сетях [21].

Ряд работ в области машинного обучения подтверждает полезность механизмов рабочей и эпизодической памяти для быстрой адаптации [22; 23]. Однако, в данном вопросе возможности систем машинного обучения все еще отстают от возможностей людей. В частности, механизм адаптации за счет рабочей памяти имеет свои недостатки, связанные с ограничениями существующих архитектур памяти в нейросетях. Например, рекуррентные сети плохо справляются с обнаружением временных зависимостей и удержанием нужной информации на длительных временных масштабах [24]. Решения на основе архитектуры трансформера требуют для обучения значительных ресурсов [8; 25], что устанавливает естественные ограничения на длительность памяти, которую можно реализовать.

В следствии этого была выбрана тема диссертационной работы.

Целью данной работы является разработка и исследование алгоритмов рабочей памяти для задач обучения с подкреплением, требующих быстрой адаптации к изменениям в среде.

Для достижения поставленной цели были определены и решены следующие задачи:

1. Разработать когнитивный алгоритм обучения с подкреплением на основе теории функциональных систем для быстрой адаптации в стохастических графовых средах.

2. Модифицировать алгоритм Q-обучения за счёт добавления рабочей памяти. Экспериментально проанализировать эффективность механизма рабочей памяти агента по сравнению с алгоритмом на основе теории функциональных систем и классическими алгоритмами обучения с подкреплением.

3. Разработать и протестировать метод, повышающий эффективность использования рабочей памяти в условиях многозадачного и непрерывного обучения агентов.

4. Создать метод, позволяющий эффективно находить и хранить длинные временные зависимости в рабочей памяти.

5. Разработать и экспериментально проверить практический алгоритм обучения рекуррентных сетей на основе предложенного метода обучения памяти.

Научная новизна:

1. Выполнено оригинальное исследование, в котором объединена биологически правдоподобная когнитивная архитектура и метод обучения с подкреплением.

2. Предложена оригинальная архитектура для обучения задаченезависи-мой рабочей памяти и продемонстрирована явная выгода от использования задаченезависимой памяти агента в условиях многозадачного и непрерывного обучения.

3. Задача обучения памяти была сформулирована через минимизацию энтропии предсказаний агента.

4. На основе основе предложенной формулировки представлен общий метод обучения памяти для нахождения и хранения информации о длительных временных зависимостях.

Теоретическая значимость данной работы заключается в следующем:

1. Разработана архитектура, совмещающая теорию функциональных систем и обучение с подкреплением. Продемонстрировано, что механизмы обучения с подкреплением легко вписываются в теорию функциональных систем.

2. Разработан новый метод обучения рабочей памяти для выучивания временных зависимостей. Преимуществом данного метода является то, что его пространственная сложность зависит от количества информации, которую нужно запомнить, а не от длины обрабатываемой временной последовательности.

Практическая значимость данной работы заключается в следующем:

1. Метод выделения задаченезависимой памяти SEM-A2C, представленный в данной работе, легок в реализации и может быть объединен с любым базовым алгоритмом глубокого обучения с подкреплением. Экспериментальные результаты показывают, что добавление модуля SEM позволяет улучшить эффективность стратегий агента в многозадачном обучении.

2. Эксперименты с алгоритмом обучения памяти через предсказание событий высокой неопределенности (MemUP) в задачах обучения с

подкреплением (RL) продемонстрировали, что MemUP позволяет выучивать длинные временные зависимости не проводя градиенты через всю последовательность. Это открывает возможность для построения моделей, менее требовательных к вычислительным ресурсам, что может расширить область применимости RL алгоритмов не увеличивая денежные и материальные расходы на их тренировку и применение.

3. Алгоритм MemUP показал хорошие результаты на классических задачах моделирования долговременных зависимостей. Таким образом, алгоритм MemUP может быть полезен не только в контексте обучения агента в RL задачах, но и на более широком классе задач, включающем задачи обучения с учителем.

Методология и методы исследования. Основным методом оценки эффективности представленных в данной работе методов является численный эксперимент. Сравнение эффективности алгоритмов производится не по единичному запуску, а на основании анализа нескольких запусков каждого из алгоритмов при помощи методов статистики. Индивидуальные запуски независимы друг от друга и для одного алгоритма отличаются только зерном генератора случайных чисел. При этом эти зерна одинаковы для всех сравниваемых алгоритмов. В главах 3 и 4 дополнительно проводится так называемое абляционное исследование (ablation study). Абляционное исследование помогает оценить вклад индивидуальных элементов дизайна нового предложенного решения в итоговый результат. При создании предложенных в данной работе алгоритмов использовались методы машинного обучения, теории вероятностей и нейронных сетей. Реализация всех рассматриваемых алгоритмов и экспериментов осуществлена на языках Python3 и bash. Дополнительно в работе использовались следующие технологии: библиотека машинного обучения pytorch, программа для контейнеризации приложений docker, библиотека numpy и др.

Основные положения, выносимые на защиту:

1. Предложенная комбинация сети функциональных систем и обучения с подкреплением позволяет новой архитектуре быстро адаптироваться к изменениям графовых средах.

2. Предложенный метод обучения задаченезависимой памяти в многозадачном обучении с подкреплением позволяет улучшить эффективность

многозадачного агента, а так же скорость его адаптации к новым задачам.

3. Разработанный алгоритм обучения долговременной памяти за счет предсказания событий высокой неопределенности позволяет выучивать длинные временные зависимости, рассматривая во время градиентного шага лишь малое число элементов временной последовательности.

Достоверность полученных результатов обеспечивается методикой численного эксперимента. Детальное описание представленных алгоритмов позволяет воспроизвести их результаты. Многие из полученных результатов согласуются и дополняют результаты, полученные в работах других авторов.

Апробация работы. Основные результаты работы докладывались на:

— XXIII Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов», 11-15 апреля 2016, Москва

— Международный хакатон и научная школа по машинному интеллекту и глубокому обучению с подкреплением «DeepHack.RL», 6-12 февраля 2017, Москва

— 7th International Conference on Learning Representations <<ICLR 2019», «Task-Agnostic Reinforcement Learning»Workshop, 6-9 May 2019, New Orleans

Личный вклад. Результаты, представленные в статьях [26—28] и на конференциях [29; 30], получены автором диссертации. Соавторы принимали участие в работе над текстом. В статье [28] основная идея и её реализация выполнены автором статьи, а Леонид Пугачев занимался имплеметацией и тестированием альтернативных алгоритмов, используемых для сравнения эффективности.

Публикации. Основные результаты по теме диссертации изложены в 3 печатных изданиях, 1 из которых издана в журнале, рекомендованном ВАК, 2 из которых изданы в периодических научных журналах, индексируемых Web of Science и Scopus, 2 — в тезисах докладов.

Объем и структура работы. Диссертация состоит из введения, 4 глав и заключения. Полный объём диссертации составляет 122 страницы, включая 17 рисунков и 6 таблиц. Список литературы содержит 152 наименования.

Глава 1. Агентный подход и обучение с подкреплением

Адаптация к внешней среде и выучивание целенаправленного поведения путем проб и ошибок полностью укладываются в рамки области машинного обучения называемого обучением с подкреплением (reinforcement learning)

[31]. Именно в рамках этого подхода мы будем рассматривать описанные выше проблемы.

1.1 Обучение с подкреплением

Обучение с подкреплением (RL) занимается алгоритмами последовательного принятия решений в среде, динамика которой не известна. Математически взаимодействие агента (управляемого обучаемой стратегией) с окружающей средой формулируется как марковский процесс принятия решений (Markov Decision Process или MDP), который представляет из себя кортеж < S,A,P,R,у >, где:

— S - множество состояний среды

— A - множество всех возможных действий в среде

— Р(s'|s,a) = Pr{st+i = s'|st = s,at = a} - вероятность перехода в состояние s' из состояния s при совершении действия а

— функция наград определяет R(s,a) вещественную награду, которую агент получит за совершения действия а в состоянии s.

— у (0 ^ y ^ 1) - коэффициент дисконтирования

Взаимодействие агента и среды дискретизировано по времени и делится на временные шаги. На каждом временном шаге t агент получает текущее состояние среды St и выбирает одно из доступных действий at Е A. Среда, получив действие at, переходит, в соответствии с вероятностным распределением Р(st+ilst,at), в новое состояние St+i. На этом шаге также вычисляется награда rt+\ = R(st,at). Награда rt+i и состояние st+i снова передаются агенту и цикл повторяется. Взаимодействие со средой длится в течении Т шагов. Если Т конечно, то такая задача называется эпизодным марковским процессом принятия решений. В этом случае весь процесс делится на эпизоды. В конце каждого

эпизода среда вновь переводится в начальное состояние и взаимодействие начинается по новой. Часто длинна эпизода может меняться от раза к разу, так как его окончание может быть связано с достижением конкретных состояний среды, а не номера шага. Фактор дисконтирования - определяет относительную важность получения отдаленных во времени наград. Стратегия агента п определяет распределение по возможным действиям агента для каждого состояния среды. Таким образом, n(a|s) это вероятность выбрать действие а в состоянии среды s. Суммарная дисконтированная награда, полученная агентом после шага t, называется доход (или return):

т

,k-t

Gt = Y, Yk-rk (1.1)

ч

k=t

Целью алгоритма обучения с подкреплением является поиск стратегии которая максимизирует математическое ожидание кумулятивной дисконтированной награды (дохода) за эпизод:

J (п) = Еп

т

^ max (1.2)

п

л=о

Подавляющее большинство алгоритмов обучения с подкреплением использует функции ценности. Функция ценности связывает ожидаемый средний доход для стратегии агента с некоторыми начальными условиями, в которых находится агент. Например, О, функция для стратегии п и пары в, а определена как средний доход, который агент получает следуя стратегии п после того как, находясь в состоянии в, агент выполнил действие а:

Qn(s,a) = Еп

т

^Yk-Vk lst = s,at = а

k=t

= = s,at = а] (1.3)

Аналогично V функция связывает математическое ожидание будущего дохода, но учитывает только факт посещения состояния s:

Уп(з) = Еп[С^ = s] = Е^пж [№,«)] (1.4)

Другая часто используемая функция ценности называется Advantage функцией или функцией преимущества и определяется как разность между Q и V функциями: Ап(з,а) = Q'n(s,a) — Уп(з). Advantage функция описывает насколько

выгоднее выбрать действие а в состоянии s по сравнению с обычным поведением стратегии п в состоянии s.

Функции ценности позволяют определить отношение частичного порядка на множестве стратегий. То есть, п' ^ п, если Vп' (s) ^ Vn(s), для всех состояний в среде. Для любого марковского процесса принятия решений всегда существует как минимум одна стратегия п*, которая не хуже чем все остальные. Такая стратегия называется оптимальной стратегией. V и Q функции ценности оптимальной стратегии п* называются оптимальными функциями ценности и обозначаются V* и Q*, соответственно. Функции ценности всех оптимальных стратегий равны.

1.1.1 Обобщенная итерация по стратегиям

Большинство алгоритмов обучения с подкреплением можно представить как частные случаи реализации общей идеи, которая называется Обобщенной Итерацией по Стратегиям (Generalized Policy Iteration [31]). Обобщенная итерация по стратегиям состоит из двух взаимодействующих процессов:

— Оценка стратегии приводит произвольную оценку функции ценности Q в соответствие с истинными значениями Q'n. Иными словами, мы учимся оценивать Q функцию текущей стратегии п.

— Улучшение стратегии меняет стратегию п на новую стратегию п', которая будет действовать более жадно по отношению к полученным оценкам Q функции.

В самом простом виде оценка стратегии и улучшение стратегии циклично следуют друг за другом до тех пор пока алгоритм не сойдется к оптимальной стратегии.

1.1.2 Табличное обучение с подкреплением

Если мы имеем дело со средой, в которой количество пар состояние-действие достаточно мало, тогда легче всего представить Q функцию в виде

матрицы | х |Л| , где строки соответствуют состояниям в среде, а столбцы действиям. В ячейках таблицы хранятся значения текущего приближения функции.

Алгоритмы, предполагающие, что мы можем независимо модифицировать приближение функции ценности для любой пары состояние-действие, называются табличными алгоритмами обучения с подкреплением.

Большинство таких алгоритмов имеют доказанные теоретические гарантии сходимости к оптимальной стратегии (БАИ^А, Q-leaгning).

Основной алгоритм табличного обучения с подкреплением называется Q-leaгning. В Q-leaгning оценка стратегии основана на уравнении Беллмана для оптимальной функции:

<^*(з,а) = Я(з,а) + уЕ8/^(8/иа) тах,а!) . (1.5)

_ а'

Соответственно, на каждом шаге £ взаимодействия со средой Q-leaгning обновляет оценку О, функции на основе полученного перехода (31,04,^, ^+1):

Q(st,at) ^ Q(st,at) + u(rt + ymaxQ(st+i,a) — Q(st,at)), (1.6)

a

где а это скорость обучения.

Улучшение стратегии происходит неявно за счет использования £-жадной стратегии, которая выбирает случайное действие с вероятностью 0. ^ £ ^ 1., и действие с наибольшей текущей оценкой Q функции с вероятностью 1 — £.

Область применимости табличных методов обучения с подкреплением сильно ограничена задачами с малым числом состояний и действий (чтобы их можно было уместить в памяти компьютера) либо требует значительных инженерных усилий для упрощения пространства состояний задачи. Однако, в случае если задача относительно мала, такие методы обучаются быстрее и не имеют проблем, связанных с использованием глубоких нейросетей для представления функции ценности или стратегии (корреляция в данных, катастрофическое забывание). В главе 2 мы используем Q-learning для сравнения в экспериментах на стохастических графах.

1.1.3 Глубокое обучение с подкреплением

Глубокое обучение с подкреплением (Deep RL) это подраздел, который использует модели глубокого обучения, такие как многослойные нейронные сети, для представления функции ценности, стратегии или даже предсказаний поведения среды. Это позволяет применять алгоритмы обучения с подкреплением к задачам c многоразмерным представлением пространства состояний (например, пиксельные изображения) и сложным пространством действий. Первые успешные попытки использования нейросетей были продемонстрированы еще для игры в Нарды в работе Тезауро [32] в 1994 году. Но активное использование ней-росетей началось только после представления архитектуры DQN [33]. DQN или Deep Q-Network показала впечатляющие результаты для игр на Atari 2600 [34], обучившись играть используя только изображения с экрана игры. То есть ту же информацию, которую используют люди при игре. DQN, по сути, представляет из себя адаптированный для глубоких нейронных сетей алгоритм Q-learning [35]. Оба алгоритма также относят к семейству value-based алгоритмов, то есть алгоритмов, где стратегия агента выводится напрямую из значений функции ценности для действий в текущем состоянии (например, £-жадная стратегия).

Альтернативный подход к формированию стратегии заключается в моделировании стратегии агента в явном виде [36; 37]. Например, нейросеть явно задает параметры распределения на действиях для текущего состояния. Большинство таких алгоритмов можно отнести к типу Исполнитель-Критик (Actor-Critic). Исполнитель отвечает за моделирование и обучение текущей стратегии агента. Критик - это модель, которая аппроксимирует функцию ценности для стратегии исполнителя. Соответственно, по аналогии с обобщенной итерацией по стратегиям, обучение критика это процесс оценки стратегии, а обучение исполнителя соответствует процессу улучшения стратегии на основе оценок критика.

Advantage Actor-Critic (A2C). Самым базовым алгоритмом из семейства алгоритмов Исполнитель-Критик является алгоритм Advantage Actor-Critic [38—40]. Исполнитель в A2C представляет нейросеть пе с параметрами 6. Ис-

полнитель обучается за счет использования формулы градиента по стратегии:

Ve J (пе) = E

т~рв(т)

^log Ve^^^^Ap^St) t>0

(1.7)

где т обозначает эпизод/траекторию, pe (т) - распределение на траекториях порождаемое стратегией c параметрами 6, Аф - оценка Advantage функции ценности, полученная при помощи критика с параметрами ф.

Хотя Avantage функцию можно учить напрямую, обычно критик в алгоритме A2C обучается оценивать только V функцию стратегии пе. Оценка Advantage функции происходит за счет использования оценок V функции двух последующих состояний:

Ап(в,а) = Qix(s, а) — Уп(в) = R(s,a) + yEs'[Уп(«')] — (s). (1.8)

При этом оценка математического ожидания Es' по следующим состояниям происходит на основе одного перехода собранного агентом на конкретном шаге t: Ap(st,at) = П + yVp(st+i) — Vp(st).

Обучение самого критика происходит через минимизацию средней квадратичной ошибки между новыми оценками критика для состояний s и целевыми оценками, полученными после посещения последующих состояний в эпизоде:

Ь(ф) = Es'^Mt)[MSE(R(s,a)+ yVv(s>),Vv(s))] . (1.9)

Стоит отметить, что градиенты не проводятся к критику через Аф при вычислении градиента по стратеги (ур. 1.7), а в случае обучения критика (ур. 1.9) градиенты не проводятся через оценку целевого значения: R(s,a) + yVp(sf).

Proximal Policy Optimization (PPO). Алгоритм PPO [41] является дальнейшим развитием алгоритма A2C. Основным недостатком многих алгоритмов, использующих градиент по стратегии, заключается в том, что они не могут использовать собранные данные более чем для одного градиентного шага. Причиной этому является математическое ожидание в уравнении 1.7, которое обязывает нас оценивать градиент для параметров 6 только при помощи траекторий, сгенерированных при помощи параметров 6. Это значит, алгоритмы обладают низкой эффективностью с точки зрения количества взаимодействий со средой, требуемых для их обучения. PPO немного решает эту проблему за счет того что позволяет оценивать градиент по стратегии п6 при помощи

данных, собранных стратегией щ. Стратегия 6 при этом не может быть произвольной и должна быть довольно близкой к стратегии 6' в пространстве стратегий. На практике это означает, что PPO за счет модификаций функции потерь исполнителя позволяет производить несколько (обычно этот гиперпараметр равен 16) градиентных шагов на данных, собранных стратегией пд. Таким образом, алгоритм PPO получает более качественные результаты по сравнению с A2C при равно количестве шагов взаимодействия со средой.

Алгоритм PPO на данный момент является одним из наиболее используемых на практике алгоритмов глубокого обучения с подкреплением.

Существует множество других вариантов алгоритмов из семейства Исполнитель-Критик или производных от алгоритма DQN [33]. В частности, алгоритм DQN имеет множество модификаций, исправляющих те или иные слабости алгоритма: Double DQN [42], Dueling DQN [43], Prioritized Experience Replay [44], RAINBOW [45] и другие. Явное представление стратегии позволяет алгоритмам Исполнитель-Критик (DDPG [46], Soft Actor-Critic [47], TD3 [48]) успешно обучать стратегию в задачах с непрерывным пространством состояний. Алгоритмы IMAPALA [49], SEED-RL [50], APE-X [51], R2D2 [52] объединяют идеи алгоритмов A2C и DQN с методами распределенного вычисления позволяя эффективно обучать агентов при наличии достаточных вычислительных мощностей.

В главе 3 будет предложена модификация для алгоритма A2C, позволяющая улучшить возможность его применения для многозадачного обучения. Стоит отметить, что предложенные изменения подойдут для большинства алгоритмов из семейства исполнитель-критик. В главе 4 алгоритмы, производные от DQN, PPO, IMPALA, используются в экспериментах для тестирования нового метода обучения рабочей памяти агента.

1.2 Обучение агентов решению нескольких задач

Все упомянутые выше алгоритмы глубокого обучения с подкреплением концентрируются на выучивании ровно одной задачи и требуют от нескольких десятков до нескольких сотен миллионов шагов. Если же рассматривать их с точки зрения выучивания многоцелевого поведения и быстрой адаптации к различным условиям среды, то можно сказать, что новые алгоритмы даже дела-

ют шаг назад. Первая проблема называется катастрофическое забывание. Каждый вес нейросети имеет глобальное влияние на её выходные значения, будь то аппроксимация функции ценности или стратегия агента. Это значит, что изменение весов нейросети мотивированное взаимодействием агента с одной частью среды, автоматически меняет поведение нейросети во всей среде. Таким образом, обучение нейросети в той или иной мере разрушает ранее выученное поведение [19; 53]. Другая проблема заключается в том, что использование стохастического градиентного спуска требует относительно малой скорости обучения. Таким образом, нейросети, хотя и позволяют успешно решать более сложные задачи, с другой стороны принципиальным образом предрасположены требовать большего количества примеров обучения, чем более простые модели классического RL [18; 54]. Это соотношение сохраняется и на простых задачах.

В следующих нескольких разделах мы обсудим различные представленные решения, которые модифицируют упомянутые алгоритмы обучения с подкреплением, чтобы добиться ускорения адаптации модели к среде и выучивания нескольких подзадач.

1.2.1 Параллельное обучение на нескольких задачах

Multi-task learning - подраздел машинного обучения, изучающий проблему решения нескольких связных задач. Интуитивно, предположение заключается в том, что связанные задачи должны способствовать обучению друг друга, так как они структурно похожи между собой. И, таким образом, можно ожидать, что одна отдельная задача будет требовать меньше времени на изучение [55; 56].

Применение многозадачного обучения в RL имеет несколько форм. Во-первых, можно использовать редуцированную форму многозадачного обучения, где дополнительные задачи вводятся лишь для того, чтобы помочь решению главной задачи. Подход, при котором агент последовательно учится решать сначала упрощенные версии задачи, а потом постепенно переходит к полной, называется curriculum learning [57]. Он позволяет алгоритмам Deep RL решать более еще более сложные задачи [58; 59], однако, получившийся в результате алгоритм не обладает никакой мультизадачностью. Другой способ заключается в использовании вспомогательных задач, которые прямо не влияют на поведе-

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Сорокин Артём Юрьевич, 2022 год

/ / / /

/ / /

250 500 750 1000 sequences length(T)

250 500 750 1000 sequences length(T)

Рисунок 4.2 — Результаты на задачах обучения с учителем. По оси X отмечается длина последовательности на которых обучались модели. Ось Y соответствует результатам модели в конце обучения. Метрики: Inverted Accuracy (1. -Accuracy) в задачах Copy, Scattered copy и pMNIST, MSE в задаче Add. Все кривые усреднены по 3 запускам.

по-прежнему демонстрирует лучшие результаты на задачах Add и pMNIST. Более того, по сравнению с методами LSTM, SRNN и Transformer, MemUP требует хранения гораздо меньшего количества промежуточных вычислений (в 10 - 50 раз) благодаря возможности обучаться раскручивая TBPTT всего на несколько десятков шагов.

4.6 Эксперименты: обучение с подкреплением.

Мы экспериментально продемонстрируем эффективность реализации MemUP для рекуррентных сетей в классической среде T-Maze. главная сложность T-Maze заключается в длиной временной зависимости. Мы также покажем, что предложенный алгоритм способен эффективно обобщаться на среды, требующие использования памяти в комбинации с более сложной реактивной стратегией поведения и богатым пространством наблюдений на примере среды, реализованной на базе движка игры Doom [61; 66].

В проведенных экспериментах мы использовали следующие бейзлайны:

— PPO-LSTM - простая комбинация алгоритма PPO [41] с использованием рекуррентной архитектуры LSTM [118]. Несмотря на простоту решения большинство успехов RL агентов в сложных частично обозреваемых средах таких, как StartCraft II [11], Dota 2 [12] использовали архитектуру LSTM, а не более сложные надстройки на основе рекуррентных сетей [24; 108]. Например, авторы из Open AI утверждают, что веса LSTM слоев в их архитектуре составляют 84% всей нейросети [12]. В экспериментах мы использовали имплементацию PPO-LSTM из библиотеки RLPyt [146].

— IMPALA-ST - агент на основе алгоритма IMPALA [49], использующий архитектуру трансформер [123] в качестве памяти. Данное решение было представлено в статье [124]. Мы использовали единственную доступную открытую имплементацию этого алгоритма из кода авторов статьи [147]. Из-за того, что обучение трансформера —это объемная с вычислительной точки зрения задача, мы использовали приведенные авторами кода гиперпараметры.

— AMRL - агент предложенный в статье Бека и др. [125]. В своей работе авторы сравнили AMRL со множество различных архитектур памяти включая DNC [24] и многослойный LSTM. В их экспериментах (включая эксперименты на среде T-maze-LN-100) AMRL показал лучшие результаты. Основное отличие AMRL от PPO-LSTM это AMRL слой вместо LSTM слоя. В дополнение к классической схеме LSTM слоя, AMRL на каждом шаге конкатенирует к скрытому рекуррентному состоянию ht вектор, который является агрегацией предыдущих

скрытых состояний за последние К шагов: AGGR({hiYi=t_K). Авторы работы не указали длину раскрутки Truncated BPTT, поэтому мы предполагаем, что они раскручивали BPTT на всю длину эпизода и агрегировали по всем предыдущим шагам. Однако, мы исследуем отношение между длинной подпоследовательности, которую на каждом шаге градиентного спуска обрабатывает архитектура памяти, и способностью этой архитектуры выучивать длинные временные зависимости. Поэтому в наших экспериментах мы будем обучать AMRL с различными фиксированными длинами ракрутки, а параметр К установим равным длине раскрутки. В оригинальной статье версия AMRL с MAX агрегатором и использованием straight-through оценки градиентов показала наилучшие результаты, поэтому в наших экспериментах мы будем использовать именно её. Хотя существует еще множество статей, предоставляющих различные алгоритмы обучения памяти агента, большинство из них не имеют доступных реализаций. Поэтому мы ограничились проверенными методами с уже имеющейся работающей реализацией.

Для всех тестируемых алгоритмов и версий MemUP мы используем одинаковые архитектуры для получения векторных представлений наблюдений. В дополнение, рекуррентные слои в PPO-LSTM, AMRL и MemUP имеют одинаковое число выходных нейронов. Однако, некоторые части нейросетей могут отличатся: архитектура трансформера совершенно не похожа на архитектуру рекуррентных сетей.

4.6.1 Зашумленный Т-лабиринт

Среда T-maze представляет из себя Т-образный лабиринт состоящий из коридора и двух рукавов (см. рис. 4.3). Агент размещается в центральном коридоре. Цель агента дойти до перекрестка и выбрать правильный поворот. В лабиринте также присутствует подсказка, указывающая какой поворот выбрать.

Задача T-maze появляется уже в ранних работах посвященных исследованию памяти агента в обучении с подкреплением [121; 148]. Для правильного

её решения агенту нужно обнаружить временную зависимость между значением подсказки, встреченной ранее, и направлением поворота на перекрестке. Основное достоинство этой задачи заключается в том, что она позволяет изолированно протестировать механизмы памяти агента при этом не представляя практически никаких сложностей с точки зрения всех остальных аспектов работы алгоритмов обучения с подкреплением: примитивная стратегия поведения и пространство наблюдений, и отсутствие проблемы исследования-использования.

T-Maze-LNR. В наших экспериментах мы использовали версию задачи почти идентичную задаче T-maze-LN, что была представлена в статье, предложившей архитектуру AMRL [125]. Агент располагается в самом начале центрального коридора рядом с подсказкой, которую видит на первом шаге эпизода. Агент может двигаться по коридору только вперед. На каждом шаге наблюдения агента представлены вектором длины 3: на первой позиции Ot[0] значение подсказки (+1 или —1 на первом шаге, 0 после), на второй позиции Ot[1] индикатор достижения перекрестка, который равен 1, если агент достиг места поворота, последний элемент не несет информации и представляет из себя случайный шум, он равен +1 или —1 с равной вероятностью. Агент получает награду только в финале эпизода. Она равна +4, если был выбран верный поворот и —3 в противном случае.

Длиной лабиринта мы будем называть число шагов между моментом, когда агент видит подсказку, и моментом, когда агент должен будет сделать выбор на основе подсказки. Реальная длина лабиринта в наших экспериментах будет колебаться в пределах 10 шагов от эпизода к эпизоду, но в проведенных экспериментах мы будет обозначать среду по минимальной возможной длине лабиринта. Другими словами, если мы обучаем агентов на среде T-Maze-LNR-100, это значит что длина лабиринта в каждом эпизоде может быть от 100 до 109 шагов, включительно. Это позволяет избавиться от корреляции в наблюдениях агентов если модель учиться, играя параллельно на нескольких экземпляров сред (см. алгоритмы PPO [41], A3C [38], IMPALA [49]).

Hint

В

M

Agent

Final Choice

a

VJ

2.

Рисунок 4.3 — Среды для для тестирования долгосрочных временных зависимостей. 1) T-maze лабиринт в котором агент должен дойти до Т-образного перекрестка и выбрать один из поворотов (Ь или Я). Подсказака о том, какой поворот верный предоставляется в самом начале. На каждом шаге агент может видеть только ту колонку клеток, в которой находится сам. 2,3) Задача Vizdoom-Two-Coloгs. Агент находится в комнате и постоянно теряет «здоровье». Чтобы пополнять здоровье агенту нужно собирать жилеты такого же цвета, что и колона. Эпизод длится 1050 шагов, но после 45 шага колонна пропадает.

4.6.2 Трёхмерная среда ViZDoom

Несмотря на то, что среда T-maze позволяет моделировать очень длинные временные зависимости, алгоритм должен быть в состоянии действовать в более сложных задачах, где проблема запоминания важной информации является не единственным испытанием. Для соответствующего эксперимента мы выбрали среду Vizdoom-two-coloгs из статьи [149].

В данной задаче агент помещается в комнату, заполненную кислотой (см. рис 4.3.2). Агент постоянно теряет здоровье (не мы предложили данную формулировку задачи). В среде по всей территории разбросаны предметы двух цветов: зеленые и красные. Предметы одного из цветов восполняют здоровье агента и дают награду +1, в то время как другие отнимают здоровье и дают награду -1. Соответствие между эффектами и цветами предметов определяется случайным образом в начале каждого эпизода. Кроме того, на карте присутствует колонна, цвет которой соответствует цвету предметов, восполняющих здоровье. Эпизод заканчивается когда здоровье агента опускается до нуля, а за каждый шаг до этого момента агент получает небольшую награду, равную +0.02. Соответственно, целью агента является как можно дольше поддерживать свое здоровье, собирая предметы нужного цвета и избегая других.

Для решения этой задачи, по идее, необходимо удерживать в памяти цвет колонны для того, чтобы иметь возможность выбирать предметы правильного цвета даже когда колонна находится вне зоны видимости. Однако, в ходе предварительных экспериментов выяснилось, что реактивный агент без памяти способен выучить стратегию, при которой он всегда будет удерживать колонну в области видимости, даже если комната заполнена стенами, закрывающими обзор со многих углов. Поэтому в нашей версии среды колонна исчезает после 45 шага, а число стен в комнате значительно уменьшено. Таким образом, мы усложнили задачу запоминания, но упростили задачу навигации в среде относительно оригинального варианта. Стоит отметить, что мы не подаем на вход агенту информацию относительно его текущего здоровья или получаемых наград, так как эти наблюдения фактически предоставляют ту же информацию что и цвет колонны, но при этом не исчезают после 45 хода.

4.6.3 Результаты и обсуждение

Результаты экспериментов в среде T-maze для минимальной длинны в 100 и 1000 шагов (T-Maze-LNR-100 и T-Maze-LNR-1000) приведены на рисунках 4.4а и 4.4б соответственно. В этих экспериментах мы ограничиваем возможности агентов в обработке всей последовательности единовременно. Это ограничение эмулирует условия, когда приходится обучать агента на последовательностях, которые не входят в оперативную память карты из-за своего размера и, таким образом, для ускорения обучения вынуждают обучать модели на более коротких последовательностях, чем длинны потенциальных временных зависимостей в эпизоде. Иными словами, ситуацию, когда длина раскрутки TBPTT для рекуррентных сетей и длина окна внимания Трансформера короче, чем длины рассматриваемых последовательностей. Все кривые приведенные на графиках, являются усреднением по трем отдельным запускам с одинаковыми гиперпараметрами и разным значение зерна генератора псевдослучайных чисел.

Noizy T-Maze Основные агенты для сравнения в этом эксперименте это PPO-LSTM и AMRL с различными длинами раскрутки TBPTT. Для экспе-

риментов в Т-Маге-ЬКЯ-ЮО дополнительно тестировался агент 1МРАЬА-8Т. При этом длина окна внимания в агенте ШРАЬА-БТ была ограничена 50 шагами. Как видно на зеленом графике (рис. 4.4а) ШРАЬА-БТ не может вы-

£ о

3

0.75

0.50

тз Р

0.25

50000

MemUP pret(r=1)

MemUP+PPO

PPO-LSTM(r=50)

PPO-LSTM(r=100)

AMRL(r=50)

AMRL(r=100)

IM PALA-ST(attn=50)

MemUP pret(r=1) MemUP+PPO PPO-LSTM(r=100) PPO-LSTM(r=500) PPO-LSTM(r=1000) AMRL(r=100) AMRL(r=500) AMRL(r=1000)

r=1

r=10

r=50

r=100

r=250

r=500

r=1000

Number of Steps

Number of Steps

6)

Number of network updates

60000

Рисунок 4.4 — а) Кривые обучения для алгоритма МетИР и всех альтернатив в среде Т-Маге-ЬКЯ-ЮО. Все кривые являются усреднением по трем запускам с различным зерном генератора псевдослучайных чисел. Фаза, предобучения памяти агента МетИР обозначена пунктирной линией, б) Кривые обучения для среды Т-Маге-ЬКЯ-ЮОО. Кривые усреднены по трем запускам, в) Отношение между длинной раскрутки ТВРТТ и временем обучения модуля памяти де в среде Т-Маге-ЬКЯ-ЮОО. Ось у показывает точность предсказаний предиктора дф использующего модуль памяти. Так как цель предсказания является натуральным числом, мы считаем точность с погрешностью в 0.05.

учить временную зависимость которая длиннее чем окно внимания агента. Это закономерный результат, так как трансформер не имеет механизма для передачи информации, лежащей вне его окна внимания. Эксперимент с агентом 1МРЛЬЛ-8Т был проведен скорее для дополнительной проверки правильности реализации среды и метода тестирования алгоритмов.

По графикам на рисунке 4.4а видно, что РРО-ЬБТМ с раскруткой на 50 шагов (г = 50) показал результаты несколько лучше, чем случайная стратегия. Тем не менее, обе версии агента для г = 50 и г = 100 оказались не в состоянии решить задачу за 30 миллионов шагов взаимодействия со средой. С другой стороны, ЛМЯЬ-МЛХ агент показал себя значительно лучше: версия с раскруткой на 100 шагов (г = 100) полностью решила задачу на некоторых из запусков, тогда как ЛМЯЬ-МЛХ(г = 50) выучилась хуже, но тоже показала заметное улучшение средних наград по сравнению со случайной стратегией. В более сложной среде T-Maze-LNR-1000 (рис. 4.4б), где временная зависимость длиннее в 10 раз, мы учили все агенты в течении 1 миллиарда шагов взаимодействия между агентами и средой. Тем не менее, нам не удалось успешно обучить ни одного агента на основе PPO-LSTM или ЛМЯЬ-МЛХ для всех длин раскрутки TBPTT, которые мы протестировали: г = 100, г = 500, г = 1000. Хотя рекуррентные сети потенциально способны обучиться находить временные зависимости, которые длиннее чем число шагов раскрутки TBPTT, представленные результаты показывают, что такое обучение не стабильно и работает только в тех случаях, когда длина временной зависимости относительно мала.

Обучении МетиР агента состояло из двух фаз. Сначала обучался детектор неопределенности (1ф и модуль памяти де. В течении этой фазы для генерации эпизодов использовалась случайная стратегия. В качестве цели для предсказания ^ использовалась дисконтированная будущая награда с коэффициентом у = 0. Во второй фазе стратегия агента обучалась используя уже предобучен-ный модуль памяти де. Период, соответствующий фазе предобучения памяти, отмечен на всех графиках пунктирной линией. Как видно на рисунках 4.4а и 4.4б, агент обучается практически мгновенно при наличии предобученной памяти. Для проведенных экспериментов модули <Лф и де переучивались для каждого нового запуска.

На рисунке 4.4в изображен процесс обучения модуля памяти с разной длинной раскрутки BPTT на среде T-Maze-LNR-1000. Для всех протестированных длин TBPTT модуль памяти оказался в состоянии сохранить информацию

Number of steps le7

Рисунок 4.5 — Кривые обучения агентов в среде ViZDoom-Two-Colors. Все результаты усреднены по двум независимым запускам. Фаза, предобучения памяти MemUP отмечена пунктирной линией.

i ш СИ

ш тз о

'а. Ш с сб а)

PPO-LSTM(r=8)

- PPO-LSTM(r=128)

AMRL-MAX(r=8)

AMRL-MAX(r=128)

IMPALA-ST(attn=8)

- I MPALA-ST(attn=100)

—k- MemUP pretraining(r=l)

- MemUP+QRDQN

- MemUP+PPO

о подсказке в начале лабиринта на всю длину эпизода. Эти результаты показывают, что мы можем обучить память находить и удерживать длинные временные зависимости для любой длины раскрутки ТВРТТ (даже включая раскрутку всего на 1 шаг). Иными словами, данный метод позволяет нам учить рекуррентную память, вообще без использования алгоритма обратного распространения ошибки через время (BackPropogation Through Time [132]), так как при длине ТВРТТ в 1 шаг, градиенты между разными временными шагами не не проходят.

Vizdoom Two Colors Результаты в среде Vizcloom-Two-Colors продемонстрированы на рисунке 4.5. Все графики усреднены по двум независимым запускам для каждой из конфигураций. Агент IMPALA-ST, использующий архитектуру Stabilized Transformer, обучался в двух разных конфигурациях с длиной окна внимания в 100 и 8 шагов. IMPALA-ST(a,ttn=8) с коротким окном внимания не смог выучить стратегию решения задачи, так как информации из последних 8 шагов агента недостаточно, чтобы определить предметы какого цвета будут восстанавливать здоровье агента. С другой стороны, агент IMPALA-ST(a,ttn=100) выучился решать задачу и стабильно выживал в среде на протяжении всех 1050 шагов.

Результаты IMPALA-ST(a,ttn=100) продемонстрировали, что в задаче Vizcloom-Two-Colors агенту нет необходимости помнить цвет подсказки на протяжении всего эпизода. Для этого достаточно научится выбирать правильные предметы пока подсказка присутствует. После исчезновения подсказки доста,-

точно помнить только цвет предыдущего собранного предмета. Таким образом, оказалось, что в задаче достаточно удерживать в памяти события, произошедшие не более чем 100 шагов назад (время достаточное, чтобы точно успеть добраться от одного предмета до другого). Ни одна из конфигураций алгоритма PPO-LSTM и AMRL-MAX (с раскруткой на 128 и 8 шагов) не смогла выучится выживать в среде дольше, чем случайный агент. Несмотря на то, что более длинной раскрутки TBPTT на 128 шагов потенциально должно хватить на то, чтобы помнить цвет подсказки или предыдущего собранного предмета, агенты PPO-LSTM и AMRL-MAX выучились только собирать любые предметы на пути без учета прошлой информации о подсказке.

Для первой фазы обучения MemUP в качестве детектора dиспользовался QR-DQN агент с е-жадной стратегией (е = 0.1). В качестве цели для предсказания yt использовалась дисконтированная будущая награда с коэффициентом дисконтирования у = 0.8. Мы обучали модуль памяти gQ с разными длинами раскрутки TBPTT, но оказалось что в этой задаче тоже можно обучить модуль памяти с раскруткой всего в 1 шаг (фактически без использования BPTT). На каждом шаге предсказания t предиктор получал на вход К = 3 наиболее неопределенных будущих переходов Ut и состояние памяти mt. Таким образом, при обучении памяти gQ использовались только 4 отдельных наблюдения из последовательности на каждом градиентном шаге. Фаза предобучения памяти MemUP длилась в течении 5 миллионов шагов взаимодействия со средой. Дополнительно отметим, что параметр у = 0.8, случайное появление предметов на карте и е-жадная стратегия значительно увеличивают уровень неопределенности целевой переменной yt. В данном случае, это алеоторная неопределенность [150], которую нельзя уменьшить при помощи информации из прошлых наблюдений. Тем не менее, это усложнение не мешает детектору неопределенности d- находить момент в эпизоде, где агенту не хватает информации, связанной с длинной временной зависимостью. Для этой среды мы обучили две версии MemUP агента: первая версия MemUP+PPO использовала алгоритм PPO вместе с переобученной памятью, а во второй MemUP+QRDQN использовался алгоритм QR-DQN. В случае MemUP+QRDQN один и тот же мето использовался для детектора неопределенности и стратегии агента. Как видно из графика обе версии выучивают стратегии по качеству сравнимые с методом IMPALA-ST(attn=100). Через 50 миллионов шагов обе версии выучиваются выживать в среде на протяжении всего эпизода. Финальный результат агентов с исполь-

зованием МетиР предобучения, несколько хуже, чем у 1МРЛЬЛ-8Т(а11п=100). Вероятнее всего, это связано с тем что МетИР выучился хранить исключительно информацию о долговременной зависимости между цветом колонны и наградами за сбор предметов, в то время как 1МРЛЬЛ-8Т(а11п=100) демонстрирует более эффективное пространственное ориентирование в среде. Иными словами, информация с последних 100 шагов, находящихся в окне внимания агента 1МРЛЬЛ-8ТМ(а11п=100), позволяет ему и установить цвет лечящих предметов, и запоминать их взаимное расположение. Скорее всего, увеличение числа событий для предсказаний и усложнение самой архитектуры памяти в алгоритме МешИР (в ViZDoom использовалась однослойная ЬБТМ сеть, которая значительно уступает Трансформеру) позволят закрыть небольшую разницу в качестве полученной стратегии. В целом, это одно из направлений для будущих исследований.

С другой стороны, мы хотим отметить что при обучении памяти МетИР требуется значительно меньше ресурсов с точки зрения размеров обрабатываемых подпоследовательностей (4 временных шага против 100) при обучении и применении агента, чем для агента 1МРЛЬЛ-8Т(а11п=100). Если сравнивать МетИР с агентами, которые использовали сравнимое количество ресурсов: 1МРЛЬЛ-БТ(аип=8), РРО-Ь8ТМ(г=8) и ЛМЯЬ-МЛХ(г=8), предложенный метод обучения значительно превосходит рассмотренные альтернативные подходы.

4.7 Исследование роли отдельных модификаций, составляющих

алгоритм ЫвшИЕ

Наш метод и его альтернативы из экспериментов выше отличаются архитектурой и алгоритмами обучения. В данной главе мы проведем эксперимент, в котором будем сравнивать работу предложенного метода обучения памяти с альтернативами, которые будут отличатся от МетИР только в ключевых аспектах, являющихся сутью предложенного нами решения.

В данном эксперименте мы будем рассматривать исключительно первую фазу обучения агента — обучение памяти с фиксированной стратегией, без последующей стадии улучшения агента. В качестве среды опять же возьмем T-Maze-LNR, а в качестве сравниваемых алгоритмов у нас будут следующие:

— MemUP - Предложенный выше (см. раздел 4.1) метод обучения памяти. Рекуррентная нейросеть обучается предсказывать Gt: где t — это произвольно удаленный в будущее момент времени с наибольшим значением неопределенности. Неопределенность оценивается при помощи отдельной нейросети, обучающейся параллельно.

— Rnd-Pred - Отличается от MemUP только тем, что предсказывает будущие переходы, выбранные случайно и равномерно. Эта модификация нужна для того, чтобы установить насколько предложенный нами критерий «предсказания переходов с максимальной неопределенностью», помогает в решении проблемы выучивания длинных временных зависимостей при раскрутке ТВРТТ на малое число шагов.

— Default - Отличается от MemUP и Rnd-Pred тем, что каждом шаге t предсказывает Gf. То есть в противоположность предсказанию наград произвольно далеких переходов в будущем (MemUP и Rnd-Pred), эта версия алгоритма всегда предсказывает ближайшее будущее. Default совпадает с классическим режимом обучения LSTM в задаче Sequence Modeling [151] или в задачах Model-Based RL [126]. Другим аналогом описанного режима будет следующая ситуация, в которой мы заменили Actor'a, из архитектуры Actor-Critic в алгоритме PPO-LSTM на фиксированную стратегию, а оставшаяся нейросеть обучается исключительно давать верные оценки критиком (оцениваем Q функцию). Default про-

л D О"

(Л 2

I

с л ш

2 1 ■

о о

DC О

#-# memup * * rnd-pred ф-ф default

, ........i.............J

*-............-ж-'-..........1 1.............1 ».............к

г=100 г=50 г=10 г=5

Truncated BPTT/Rollout Length

a) T-Maze-LNR-100

r=l

£з

л D О"

(Л 2

I

с л ш

2 1 ■

о о

DC О

memup * * rnd-pred 4-fr default

....... .............«......... ----•.............и

г=100 г=50 г=10 г=5

Truncated BPTT/Rollout Length

б) T-Maze-LNR-1000

r=l

Рисунок 4.6 — Зависимость между финальной ошибкой предсказания на тестовом датесете и длинной раскрутки рекуррентной сети. Значение квадрата средней квадратичной ошибки усреднено по 6 независимым запускам. Вертикальные отрезки обозначают стандартное отклонение, посчитанное по 6

независимым запускам.

веряет гипотезу о том, что успех метода связан с мелкими различиями в реализции между MemUP и бейзлайнами в разделах 4.6 и 4.5. Все сравниваемые алгоритмы имели одинаковую архитектуру нейросети: простой MLP-энкодер, LSTM-слой. Все версии также использовали предиктор дф. Для всех алгоритмов мы провели поиск по гиперпараметру скорости обучения среди значений: 5e-4, 2e-4, 1e-4, 5e-5, 2e-5. На приведенных ниже графиках приведены результаты с лучшим значением скорости обучения для каждого из трех рассматриваемых алгоритмов. Все остальные гипперпараметры, не указанные выше, были одинаковыми для всех трех алгоритмов. Эпизоды в среде T-Maze-LNR-100 генерировались при помощи случайной стратегии. Все алгоритмы обучались в течении 30000 градиентных шагов для 5 разных длин Truncated BPTT: 1, 5, 10, 50, 100. Длину TBPTT не стоит рассматривать, как настраиваемый гиперпараметр. Она нужна для того, чтобы протестировать, как меняются шансы рекуррентной нейросети выучить длинную временную зависимость при уменьшении соотношения длины TBPTT к длине искомой временной зависимости (100-110 шагов в среде).

В качестве метрики качества мы взяли корень средней квадратичной ошибки (Root-Mean-Squared Error или RMSE) между предсказаниями полученными на последнем шаге эпизода из хт и тт, и истинным значением возврата Gfinal = ГТ на последнем шаге. Иными словами, мы проверяли смогла ли память предсказать финальную награду в эпизоде, которая зависит от соотношения между финальным действием и подсказкой в начале эпизода. Без сохранения в памяти информации о подсказке, сделать правильное предсказание нельзя. Значение RMSE считалось на отдельно записанных 100 эпизодах, которые генерировались с seed'ом отличным от тренировочного seed^.

На рисунке 4.6 представлены основные результаты данных экспериментов. По оси X мы указали длину Truncated BPTT в порядке её уменьшения. Каждая точка на вертикали, соответствующей определенной длине TBPTT, показывает усредненное по 6 запусками значение RMSE после обучения модели. То есть чем ниже по оси Y находится точка, тем лучше. Как видно из графика, Default модель так и не смогла выучить длительную временную зависимость, превышающую длину тестируемых раскруток TBPTT. Это совпадает с результатами агента PPO-LSTM на задаче T-Maze-LNR. Этот результат демонстрирует, что даже с фиксированной стратегией стандартный подход к

обучению памяти не позволяет надежно учить зависимости, превышающие длину раскрутки TBPTT.

Rnd-Pred смог идеально выучится для раскруток в 100 и 50 шагов, однако, после этого его результаты значительно ухудшились. В большинстве запусков с раскруткой меньшей 10 память так и не выучилась. Относительный успех Rnd-Pred предсказуем, так как выбирая случайно мы с небольшой вероятностью будем попадать на предсказание интересующего нас конца временной зависимости. Например, для раскрутки в 50 шагов, с при выбором новой цели предсказания на каждом шаге, шанс того, что хотя бы на одном из шагов памяти потребуется предсказать верное целевое событие (конец эпизода и связанную награду) близок к 0.5. Таким образом, по нашим экспериментам видно, что можно надежно учить зависимость длины 100 при помощи раскрутке, которая не более чем 2-3 раза меньше. Но при увеличении длины последовательности или уменьшении раскрутки этот шанс сильно падает.

С другой сторон, результаты MemUP показывают, что данный метод позволяет решить задачу независимо от длины раскрутки. Парадоксально, но в тестируемых RL средах получилось выучить рекуррентную память вообще не используя Backpropogation through Time (г = 1). Проведенные эксперименты показывают, что предложенные нами улучшения действительно помогают учить длинные временный зависимости, при этом рассматривая только короткие раскрутки TBPTT.

4.8 Чувствительность метода к проблеме Шумного Телевизора

Для того чтобы оценить потенциальную полезность долговременной памяти на шаге 1, в алгоритме МетИР используется оценка локальной энтропии Н(уг\%г) на этом шаге. Использование локальной энтропии фактически держится на предложении, что недостаток информации, который фиксирует высокая энтропия может быть восполнен информацией с прошлых шагов последовательностям. раздел 4.1). Однако, это может быть неверно. В задаче могут существовать моменты, когда целевую переменную ^ в принципе невозможно предсказать. В качестве иллюстрации можно представить сломанный телевизор, который случайным образом переключает каналы. При этом внешний вид

телевизора совершенно не позволяет сделать предсказание о том, какой канал включится следующим. Наличие такого сломанного телевизора в среде часто является проблемой для алгоритмов, занимающихся дилеммой исследования-использования в задачах обучения с подкреплением. Соответственно, такую ситуацию принято называть проблемой «Шумного Телевизора» [129; 152]. Алгоритм МетИР также подвержен проблеме «Шумного Телевизора», так как он попытается объяснить непредсказуемые события при помощи информации из прошлого. Эти попытки не принесут результатов, так как подобные события в принципе невозможно предсказать. Это может отвлечь алгоритм от событий, для которых можно было бы выучить долговременную память.

Для того чтобы проверить эту гипотезу, мы ввели в среду T-Maze-LNR-100 различное количество подобных «Шумному Телевизору» отвлекающих случайных событий.

MemUP: #updates before solving the task

К=1 1920 3000 8460 18840

К=2 1020 1740 3600 8880 30300

К=3 1200 1260 2880 7920 33480

К=5 - 1200 1440 1980 5580 17280

К=10 1620 1860 2160 3540 11400

> > > л>

<5 <5 <5 <5 с?

Рисунок 4.7 — Каждая ячейка показывает среднее количество шагов градиентного спуска, которые потребовались для решения задачи (достижение среднеквадратичной ошибки в 0,05). По оси X отмечено количество непредсказуемых случайных событий в среде («Шумный Телевизор»). По оси У отмечен размер множеств ^, то есть количество событий высокой неопределенности, которые предсказывались в алгоритме МетИР. Более темные цвета означают более медленное решение.

Noisy T-Maze with Distractors. В этой версии агент может получить награды +4 или -3 в D + 1 точках принятия решений. Точки принятия решений выбираются случайным образом на расстоянии не менее 50 шагов от подсказки. Все они могут быть обнаружены, когда элемент Ot[ 1] = 0.0 в векторе наблюдения Ot. При этом, каждая точка принятия решения соответствует своему индивидуальному значению Ot[ 1]. Только в 1 из D + 1 точек принятия решений награда зависит от действий агента и подсказки из начала эпизода. В остальных D точках награды полностью случайны (выбираются с вероятностью 0,5). Таким образом, Noisy T-maze With Distractors генерирует траектории с одной долгосрочной зависимостью и D событиями, действующими как «Шумный Телевизор».

Было проведено 25 экспериментов по 6 независимых запусков в каждом (всего 150 запусков). Различия в экспериментах сводятся к двум параметрам: количеству отвлекающих событий D (ось X на рис. 4.7) и параметру К, определяющему, какое количество будущих событий учится предсказывать память на каждом шаге (ось Y на рис. 4.7). Каждый из 150 запусков имел ограниченный бюджет 45000 шагов градиентного спуска.

Увеличение параметра D усложняет задачу выучивания долговременной зависимости для MemUP. Увеличение количества элементов в множествах Ut (за счет изменения К) повышает вероятность выбора будущего события, являющегося частью временной зависимости. С другой стороны, с увеличением Ut увеличиваются и затраты ресурсов на тренировку памяти. Длина раскрутки TBPTT во всех экспериментах равна 1.

Результаты на рис. 4.7 показывают, что с увеличением количества отвлекающих факторов скорость обучения памяти снижается. Однако увеличение множества Ut позволяет бороться с этой проблемой. Для эксперимента (D=19, K=1) ни один из запусков не решил задачу в первые 45000 обновлений. В экспериментах (D=19, K=2) и (D=19, K=3) только 5 из 6 запусков решали задачу. Результаты показывают, что алгоритм MemUP достаточно устойчив к наличию случайного шума в среде и может довольно быстро выучить временную зависимость, даже если детектор неопределенности отвлекается на «Шумный Телевизор» в 80% случаев.

4.9 Выводы

В данной работе мы предложили новый метод тренировки долговременной памяти. Основная идея состоит в том, чтобы научить сеть памяти предсказывать будущие «события» с высокой степенью неопределенности и пропускать все остальные. Прогнозирование небольшого числа произвольно удаленных будущих «событий» существенно экономит вычислительные ресурсы, необходимые для обратного распространения градиентов. В то же время, акцент на предсказаниях с высокой степенью неопределенности позволяет не упускать в задаче длинные временные зависимости.

Экспериментальные результаты показывают, что MemUP позволяет выучивать длинные временные зависимости, даже если вся временная зависимость не может быть обработана за один шаг градиентного спуска.

Ни одна из протестированных архитектур памяти, обученных классическим способом, не демонстрирует такой способности. Все альтернативные решения, демонстрирующие сопоставимые по качеству результаты требуют, хранения как минимум в 50 раз больше промежуточных вычислений для задач Add, Copy, Scattered Copy, pMNIST, а также как минимум в 500 раз больше для задачи Noisy-T-Maze, в 625 раз больше для задачи Vizdoom-Two-Colors (Stabilized Transformer имеет квадратичную сложность при обработке в 25 раз большего числа шагов).

Даже используя меньше ресурсов, MemUP превосходит бейзлайны, которые имели возможность работать с полными последовательностями, в задачах Add и pMNIST(31). В задачах Scattered Copy, T-maze и Vizdoom-Two-Colors MemUP лучше, чем все рекуррентные бейзлайны.

Еще одно преимущество метода заключается в том, что MemUP можно комбинировать с любой рекуррентной архитектурой.

Предложенный метод показал многообещающие результаты, которые оставляют множество возможностей для будущих направлений исследования. В частности, реализация параллельного обучения памяти и стратегии в RL, совмещение архитектуры памяти на основе трансформера с предложенным методом обучения и тд.

Заключение

Основные результаты этой диссертации заключаются в следующем:

1. Была предложена архитектура, совмещающая табличные методы обучения с подкреплением с нейроморфной архитектурой Сеть Функциональных Систем (FSN). Экспериментально показано, что (в отличии от табличных алгоритмов RL) предложенный алгоритм способен (в отличии от алгоритмов Q-learning и SARSA) обучаться в графовых средах с меняющейся динамикой среды также эффективно, как в графовых средах, соответствующих марковскому процессу принятия решений.

2. Численные исследования показали, что основное преимущество предложенной модификации FSN по сравнению с классическими алгоритмами обучения с подкреплением, связано с использованием механизма рабочей памяти.

3. Предложена архитектура, позволяющая разделять задаче-специфич-ную и общую рабочую память агента в многозадачном обучении с подкреплением.

4. Экспериментально продемонстрировано, что явное выделение задаче-независимой рабочей памяти (SEM) позволяет улучшить эффективность (в среднем на 20%) многозадачного агента в рандомизированной частично обозреваемой версии задачи «Такси». В абляционном исследовании показано, что наличие отдельной задаче-независимой памяти позволяет агенту адаптироваться к новым задачам быстрее, чем при использовании совмещенного модуля памяти.

5. Задача обучения памяти сформулирована через минимизацию энтропии предсказаний модели. На основе данного формализма разработан метод обучения памяти MemUP, позволяющий выучивать временные зависимости даже если они не могут быть обработаны за один шаг градиентного спуска.

6. На задачах Add и pMNIST показано, что MemUP превосходит все рассмотренные альтернативные методы. На задаче Scattered Copy и в средах T-maze, Vizdoom-Two-Colors MemUP превосходит альтернативные методы на основе рекуррентных сетей. Альтернативные решения, демонстрирующие результаты сопоставимые по качеству с MemUP, тре-

буют хранения большего числа промежуточных вычислений (минимум в 50 раз для одного градиентного шага на рассмотренных задачах). Результаты исследования нейроморфной архитектуры РБМ показывают, что рабочая память может быть основным механизмом быстрой адаптации. Эти выводы согласуются с рядом исследований по мета-обучению [22; 23] и нейробио-логии [19; 20]. Результаты экспериментов с алгоритмом 8ЕМ-Л2С демонстрируют полезность общей памяти о состоянии среды в контексте многозадачного и непрерывного обучения. Насколько нам известно, полезность передачи информации о среде между подстратегиями многозадачного агента не была экспериментально проверена в других источниках. Наиболее важным результатом этой диссертации являются идеи, лежащие в основе алгоритма МетИР. Сильная сторона МетИР заключается в том, что его пространственная сложность напрямую не зависит от длинны временной последовательности, на которой обучается память. Это выгодным образом отличает МетИР от стандартного метода обучения рекуррентных сетей [132] и Трансформеров [25; 123].

Перспективы дальнейшего развития текущих исследований. Алгоритм БЕМ-А2С использовал ЬБТМ сеть, обучаемую методом ВРТТ[132]. Такая архитектура памяти плохо справляется с длинными временными зависимостями. При этом, с увеличением числа задач, на которых учитсяБЕМ-А2С, длинна временных зависимостей может только возрастать. Таким образом, при масшта-бированииБЕМ-А2С на большее число задач будет более выгодно использовать алгоритм обучения памяти МетИР, который лучше работает с длинными временными зависимостями. Алгоритм МетИР предоставляет множество возможностей для дальнейшего развития. Во-первых, реализация обучения модуля памяти МетИР параллельно со стратегией агента поможет расширить область применимости алгоритма на ситуации, когда в процессе улучшения стратегии агент сталкивается с новыми временными зависимостями. Во-вторых, использование ЬБТМ в качестве архитектуры памяти не критично в алгоритме МетИР, соответственно можно создать версию алгоритма для обучения архитектуры Трансформера, это позволит улучшить вместимость модуля памяти.

Одним из основных недостатков алгоритма МетИР является его потенциальная чувствительность к проблеме Шумного Телевизора [129]. Практические эксперименты указывают на высокую устойчивость метода к случайному шуму, однако это не отменяет существования задач, в которых подобный шум помешает методу обучить память. Самый прямолинейный подход к решению этой

проблемы заключается в том, чтобы вместо оценки общей неопределенности переходов, начать оценивать алеаторную и эпистимическую неопределенности по отдельности [150]. Если такая оценка будет достаточно хороша, то это позволит детектору игнорировать состояния с высокой алеаторной неопределенностью (свойство Шумного Телевизора). Дополнительно стоит обратить внимание на то, что с такой же проблемой уже давно сталкиваются алгоритмы, использующие «любопытство» [129; 152] для решения дилеммы исследования-использования в обучении с подкреплением. Поэтому другим путем для решения проблемы «Шумного Телевизора» в МетиР может быть адаптация решений, разработанных для алгоритмов с «любопытством».

Список сокращений и условных обозначений

RL MDP

POMDP SARSA Q-learning FS / ФС FSN A2C PPO

DQN QR-DQN

RNN LSTM FC MLP

CNN SEM

AMRL

SRNN

MemUP

Reinforcement Learning, обучение с подкреплением Markov Decision Process,

марковский процесс принятия решений (МППР) Partially Obervable MDP, частично обозреваемый МППР on-policy алгоритм табличного RL Q-обучение, off-policy алгоритм табличного RL Functional System, функциональная система Functional Systems Network, сеть функциональных систем Advantage Actor-Critic, on-policy алгоритм глубоко RL Proximal Policy Optimization, on-policy алгоритм глубокого RL. Улучшенная версия A2C Deep Q-Network, off-policy алгоритм глубокого RL Quantile Regression DQN, Распределенная версия алгоритма DQN. Строит оценку распределения дохода Recurrent Neural Network, рекуррентная нейронная сеть Long Short-Term Memory, долгая краткосрочная память Fully Connected, полносвязный слой Multilayer perceptron, многослойная сеть из полносвязных слоёв

Convolutional Neural Network, сверточная нейросеть Shared Episodic Memory, архитектура для обучения задаче-независимой памяти в многозадачном RL Aggregated Memory For Reinforcement Learning, архитектура RNN для задач RL

Structural Recurrent Neural Network, архитектура RNN для выучивания длинных временных зависимостей Memory via Uncertainty Prediction, метод обучения долговременной памяти предложенный в диссертации

Словарь терминов

обучение с подкреплением (reinforcement learning) : Область машинного обучения, которая занимается алгоритмами последовательного принятия решений в среде, динамика которой не известна.

доход (return, reward-to-go) : сумма будущих дисконтированных наград начиная с определенного момента времени Gt = y%-tri.

предобучение (Pretraining) : Предварительное обучение модели, применяемое до обучения модели на целевой задаче.

дообучение (Fine-tuning) : Обучение предобученной модели на новой целевой задаче.

многозадачное обучение (multitask learning) : Обучение модели решать сразу несколько задач.

непрерывное обучение (continual leanring) : Задача последовательного обучения модели на различных задачах. Важно, чтобы модель, выучивая новый навык, не теряла способности решать предыдущие задачи.

on-policy: Семейство алгоритмов обучения с подкреплением, которым необходимо собирать данные при помощи той же стратегии, которая на них обучается.

off-policy: Семейство алгоритмов обучения с подкреплением, которые могут обучать стратегию на данных собранных другой стратегией.

рекуррентные сети (recurrent neural networks, RNN) : Архитектура нейросетевой памяти. На каждом шаге меняет вектор состояния h = RNN(xt,ht-1), который выполняет роль хранилища прошлой информации.

Трансформеры (Transformers) : семейство архитектур для задачи моделирования последовательности. Могут спользоваться как архитектуры памяти на основе скользящего окна: память содержит N последних наблюдений агента. Трансформер обрабатывает все элементы в своем «окне внимания», при помощи механизма мягкого внимания.

обратное распространение ошибки через время (Backpropogation Through Time): Основной метод обучения рекуррентных сетей. Эквивалентен методу обратного распространения ошибки, с той разницей, что градиенты проводятся между двумя соседними запусками RNN на последовательных временных шагах.

временная зависимость (temporal dependency): Ситуация, при которой информация о входных данных Xj с шага j, может быть полезна для предсказания целевой переменной yi на шаге i. То есть, если p(yi\xi) = p(yi\xi,xj), то между шагами i и j существует временная зависимость.

неопределенность (uncertainty) : Мера недостатка информации. В данной диссертации под неопределенностью предсказаний переменной х, понимается информационная энтропия Н(х) = -Ех[1одр(х)]

удивление: Монте-Карло оценка энтропии по одному прецеденту -logp(x).

алеаторная неопределенность : Обозначает неустранимый шум в данных, на которых учится модель. Недостаток информации, который нельзя восполнить.

эпистемическая неопределенность : Неопределенность вызванная ошибками в обучающейся модели. Будет уменьшаться с улучшением качества модели.

Список литературы

1. LeCun, Y. Deep learning [Текст] / Y. LeCun, Y. Bengio, G. Hinton // nature. — 2015. — Т. 521, № 7553. — С. 436—444.

2. Krizhevsky, A. Imagenet classification with deep convolutional neural networks [Текст] / A. Krizhevsky, I. Sutskever, G. E. Hinton // Advances in neural information processing systems. — 2012. — С. 1097—1105.

3. Imagenet: A large-scale hierarchical image database [Текст] / J. Deng [и др.] // 2009 IEEE conference on computer vision and pattern recognition. — Ieee. 2009. — С. 248—255.

4. Deep residual learning for image recognition [Текст] / K. He [и др.] // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2016. — С. 770—778.

5. Qiao, S. DetectoRS: Detecting Objects With Recursive Feature Pyramid and Switchable Atrous Convolution [Текст] / S. Qiao, L. Chen, A. L. Yuille // IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, virtual, June 19-25, 2021. — Computer Vision Foundation / IEEE, 2021. — С. 10213—10224. — URL: https://openaccess.thecvf.com/content/ CVPR2021 / html / Qiao % 5C _ DetectoRS % 5C _ Detecting % 5C _ Objects % 5C _ With % 5C _ Recursive % 5C _ Feature % 5C _ Pyramid % 5C _ and % 5C _ Switchable%5C_Atrous%5C_CVPR%5C_2021%5C_paper.html.

6. Improved Noisy Student Training for Automatic Speech Recognition [Текст] / D. S. Park [и др.] // Interspeech 2020, 21st Annual Conference of the International Speech Communication Association, Virtual Event, Shanghai, China, 25-29 October 2020 / под ред. H. Meng, B. Xu, T. F. Zheng. — ISCA,

2020. — С. 2817—2821. — URL: https://doi.org/10.21437/Interspeech.2020-1470.

7. Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis [Текст] / R. Valle [и др.] // 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7,

2021. — OpenReview.net, 2021. — URL: https://openreview.net/forum?id= Ig53hpHxS4.

8. Language models are few-shot learners [Текст] / T. B. Brown [и др.] // arXiv preprint arXiv:2005.14165. — 2020.

9. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Текст] / J. Devlin [и др.] // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019, Minneapolis, MN, USA, June 2-7, 2019, Volume 1 (Long and Short Papers) / под ред. J. Burstein, C. Doran, T. Solorio. — Association for Computational Linguistics, 2019. — C. 4171—4186. — URL: https://doi.org/ 10.18653/v1/n19-1423.

10. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play [Текст] / D. Silver [и др.] // Science. — 2018. — Т. 362, № 6419. — С. 1140—1144.

11. Grandmaster level in StarCraft II using multi-agent reinforcement learning [Текст] / O. Vinyals [и др.] // Nature. — 2019. — Т. 575, № 7782. — С. 350—354.

12. Dota 2 with large scale deep reinforcement learning [Текст] / C. Berner [и др.] // arXiv preprint arXiv:1912.06680. — 2019.

13. Building machines that learn and think like people [Текст] / B. M. Lake [и др.] // Behavioral and Brain Sciences. — 2017. — Т. 40.

14. Progressive neural networks [Текст] / A. A. Rusu [и др.] // arXiv preprint arXiv:1606.04671. — 2016.

15. Overcoming catastrophic forgetting in neural networks [Текст] / J. Kirkpatrick [и др.] // Proceedings of the National Academy of Sciences. — 2017. — Т. 114, № 13. — C. 3521—3526.

16. Bilevel programming for hyperparameter optimization and meta-learning [Текст] / L. Franceschi [и др.] // International Conference on Machine Learning. — PMLR. 2018. — C. 1568—1577.

17. Finn, C. Model-agnostic meta-learning for fast adaptation of deep networks [Текст] / C. Finn, P. Abbeel, S. Levine // International Conference on Machine Learning. — PMLR. 2017. — C. 1126—1135.

18. Neural episodic control [Текст] / A. Pritzel [и др.] // arXiv preprint arXiv:1703.01988. — 2017.

19. McClelland, J. L. Why there are complementary learning systems in the hippocampus and neocortex: insights from the successes and failures of connectionist models of learning and memory. [Текст] / J. L. McClelland, B. L. McNaughton, R. C. O'Reilly // Psychological review. — 1995. — Т. 102, № 3. — С. 419.

20. Kumaran, D. What learning systems do intelligent agents need? Complementary learning systems theory updated [Текст] / D. Kumaran, D. Hassabis, J. L. McClelland // Trends in cognitive sciences. — 2016. — Т. 20, № 7. — С. 512—534.

21. One-shot Learning with Memory-Augmented Neural Networks [Текст] / A. Santoro [и др.] // CoRR. — 2016. — Т. abs/1605.06065. — arXiv: 1605. 06065. — URL: http://arxiv.org/abs/1605.06065.

22. RL2: Fast Reinforcement Learning via Slow Reinforcement Learning [Текст] / Y. Duan [и др.] // CoRR. — 2016. — Т. abs/1611.02779. — arXiv: 1611. 02779. — URL: http://arxiv.org/abs/1611.02779.

23. Learning to reinforcement learn [Текст] / J. Wang [и др.] // Proceedings of the 39th Annual Meeting of the Cognitive Science Society, CogSci 2017, London, UK, 16-29 July 2017 / под ред. G. Gunzelmann [и др.]. — cognitivesciencesociety.org, 2017. — URL: https : / / mindmodeling . org / cogsci2017/papers/0252/index.html.

24. Hybrid computing using a neural network with dynamic external memory [Текст] / A. Graves [и др.] // Nature. — 2016. — Т. 538, № 7626. — С. 471.

25. Big Bird: Transformers for Longer Sequences [Текст] / M. Zaheer [и др.] // Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual / под ред. H. Larochelle [и др.]. — 2020. — URL: https : / / proceedings . neurips . cc / paper / 2020 / hash / c8512d142a2d849725f31a9a7a361ab9-Abstract.html.

26. Sorokin, A. Y. Functional Systems Network Outperforms Q-learning in Stochastic Environment [Текст] / A. Y. Sorokin, M. S. Burtsev // Procedia Computer Science. — 2016. — Т. 88. — С. 397—402.

27. Sorokin, A. Y. Episodic memory transfer for multi-task reinforcement learning [Текст] / A. Y. Sorokin, M. S. Burtsev // Biologically inspired cognitive architectures. — 2018. — Т. 26. — С. 91—95.

28. Sorokin, A. Y. Train Long-Term Memory by Predicting High Uncertainty Events [Текст] / A. Y. Sorokin, L. P. Pugachev, M. S. Burtsev // Proceedings of MIPT. — 2021. — Т. 13.

29. Сорокин, А. Ю. Алгоритм обучения сети функциональных систем в стохастической среде [Текст] / А. Ю. Сорокин // Л0М0Н0С0В-2016. — 2016. — С. 134—136.

30. Sorokin, A. Y. Continual and Multi-task Reinforcement Learning With Shared Episodic Memory [Текст] / A. Y. Sorokin, M. S. Burtsev //. — 2019. — URL: http://arxiv.org/abs/1905.02662.

31. Reinforcement learning: An introduction [Текст] / R. S. Sutton, A. G. Barto, [et al.]. — MIT press, 1998.

32. Tesauro, G. Temporal difference learning and TD-Gammon [Текст] / G. Tesauro // Communications of the ACM. — 1995. — Т. 38, № 3. — С. 58—68.

33. Human-level control through deep reinforcement learning [Текст] / V. Mnih [и др.] // Nature. — 2015. — Т. 518, № 7540. — С. 529—533.

34. The arcade learning environment: An evaluation platform for general agents [Текст] / M. G. Bellemare [и др.] // Journal of Artificial Intelligence Research. — 2013. — Т. 47. — С. 253—279.

35. Watkins, C. J. Q-learning [Текст] / C. J. Watkins, P. Dayan // Machine learning. — 1992. — Vol. 8, no. 3/4. — P. 279—292.

36. Trust region policy optimization [Текст] / J. Schulman [и др.] // International conference on machine learning. — 2015. — С. 1889—1897.

37. Levine, S. Guided policy search [Текст] / S. Levine, V. Koltun // International Conference on Machine Learning. — 2013. — С. 1—9.

38. Asynchronous methods for deep reinforcement learning [Текст] / V. Mnih [и др.] // International conference on machine learning. — 2016. — С. 1928—1937.

39. Reinforcement learning through asynchronous advantage actor-critic on a gpu [Текст] / M. Babaeizadeh [и др.] // arXiv preprint arXiv:1611.06256. — 2016.

40. Clemente, A. V. Efficient Parallel Methods for Deep Reinforcement Learning [Текст] / A. V. Clemente, H. N. Castejon, A. Chandra // arXiv preprint arXiv:1705.04862. — 2017.

41. Proximal policy optimization algorithms [Текст] / J. Schulman [и др.] // arXiv preprint arXiv:1707.06347. — 2017.

42. Hasselt, H. v. Deep reinforcement learning with double Q-Learning [Текст] / H. v. Hasselt, A. Guez, D. Silver // Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. — 2016. — С. 2094—2100.

43. Dueling network architectures for deep reinforcement learning [Текст] / Z. Wang [и др.] // International conference on machine learning. — PMLR. 2016. — С. 1995—2003.

44. Prioritized experience replay [Текст] / T. Schaul [и др.] // International Conference on Learning Representations. — 2015.

45. Rainbow: Combining improvements in deep reinforcement learning [Текст] / M. Hessel [и др.] // Thirty-second AAAI conference on artificial intelligence. — 2018.

46. Continuous control with deep reinforcement learning [Текст] / T. P. Lillicrap [и др.] // arXiv preprint arXiv:1509.02971. — 2015.

47. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor [Текст] / T. Haarnoja [и др.] // International conference on machine learning. — PMLR. 2018. — С. 1861—1870.

48. Fujimoto, S. Addressing function approximation error in actor-critic methods [Текст] / S. Fujimoto, H. Hoof, D. Meger // International conference on machine learning. — PMLR. 2018. — С. 1587—1596.

49. IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures [Текст] / L. Espeholt [и др.] // Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmassan, Stockholm, Sweden, July 10-15, 2018. Т. 80 / под ред. J. G. Dy, A. Krause. — PMLR, 2018. — С. 1406—1415. — (Proceedings of Machine Learning Research). — URL: http://proceedings.mlr.press/v80/ espeholt18a.html.

50. Seed rl: Scalable and efficient deep-rl with accelerated central inference [Текст] / L. Espeholt [и др.] // arXiv preprint arXiv:1910.06591. — 2019.

51. Distributed prioritized experience replay [Текст] / D. Horgan [и др.] // arXiv preprint arXiv:1803.00933. — 2018.

52. Recurrent Experience Replay in Distributed Reinforcement Learning [Текст] / S. Kapturowski [и др.] // 7th International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. — OpenReview.net, 2019. — URL: https : / / openreview . net / forum ? id = r1lyTjAqYX.

53. Riedmiller, M. Neural fitted Q iteration-first experiences with a data efficient neural reinforcement learning method [Текст] / M. Riedmiller // European Conference on Machine Learning. — Springer. 2005. — С. 317—328.

54. Model-free episodic control [Текст] / C. Blundell [и др.] // arXiv preprint arXiv:1606.04460. — 2016.

55. Taylor, M. E. An introduction to intertask transfer for reinforcement learning [Текст] / M. E. Taylor, P. Stone // Ai Magazine. — 2011. — Т. 32, № 1. — С. 15.

56. Caruana, R. Multitask learning [Текст] / R. Caruana // Machine learning. — 1997. — Т. 28, № 1. — С. 41—75.

57. Curriculum learning [Текст] / Y. Bengio [и др.] // Proceedings of the 26th annual international conference on machine learning. — 2009. — С. 41—48.

58. Teacher-student curriculum learning [Текст] / T. Matiisen [и др.] // IEEE transactions on neural networks and learning systems. — 2019.

59. Wu, Y. Training Agent for First-Person Shooter Game with Actor-Critic Curriculum Learning [Текст] / Y. Wu, Y. Tian // 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. — OpenReview.net, 2017. — URL: https://openreview.net/forum?id=Hk3mPK5gg.

60. Reinforcement Learning with Unsupervised Auxiliary Tasks [Текст] / M. Jaderberg [и др.] // 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. — OpenReview.net, 2017. — URL: https://openreview. net/forum?id=SJ6yPD5xg.

61. Lample, G. Playing FPS Games with Deep Reinforcement Learning [Текст] / G. Lample, D. S. Chaplot // Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, California, USA / под ред. S. P. Singh, S. Markovitch. — AAAI Press, 2017. — С. 2140—2146. — URL: http://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14456.

62. Learning to Navigate in Complex Environments [Текст] / P. Mirowski [и др.] // 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. — OpenReview.net, 2017. — URL: https : / / openreview . net / forum ? id = SJMGPrcle.

63. Horde: a scalable real-time architecture for learning knowledge from unsupervised sensorimotor interaction [Текст] / R. S. Sutton [и др.] // 10th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2011), Taipei, Taiwan, May 2-6, 2011, Volume 1-3 / под ред. L. Sonenberg [и др.]. — IFAAMAS, 2011. — С. 761—768. — URL: http: / / portal.acm.org/citation. cfm? id = 2031726 %5C&CFID = 54178199% 5C&CFTOKEN=61392764.

64. The predictron: End-to-end learning and planning [Текст] / D. Silver [и др.] // Proceedings of the 34th International Conference on Machine Learning-Volume 70. — JMLR. org. 2017. — С. 3191—3199.

65. Dosovitskiy, A. Learning to Act by Predicting the Future [Текст] / A. Dosovitskiy, V. Koltun // 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. — OpenReview.net, 2017. — URL: https://openreview. net/forum?id=rJLS7qKel.

66. Vizdoom: A doom-based ai research platform for visual reinforcement learning [Текст] / M. Kempka [и др.] // 2016 IEEE Conference on Computational Intelligence and Games (CIG). — IEEE. 2016. — С. 1—8.

67. Policy Distillation [Текст] / A. A. Rusu [и др.] // 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings / под ред. Y. Bengio, Y. LeCun. — 2016. — URL: http://arxiv.org/abs/1511.06295.

68. Distral: Robust multitask reinforcement learning [Текст] / Y. Teh [и др.] // Advances in Neural Information Processing Systems. — 2017. — C. 4496—4506.

69. A Deep Hierarchical Approach to Lifelong Learning in Minecraft [Текст] / C. Tessler [и др.] // Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, California, USA / под ред. S. P. Singh, S. Markovitch. — AAAI Press, 2017. — C. 1553—1561. — URL: http://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14630.

70. A Generalist Agent [Текст] / S. Reed [и др.] // arXiv preprint arXiv:2205.06175. — 2022.

71. Hierarchical decision making by generating and following natural language instructions [Текст] / H. Hu [и др.] // Advances in neural information processing systems. — 2019. — C. 10025—10034.

72. Kaplan, R. Beating Atari with Natural Language Guided Reinforcement Learning [Текст] / R. Kaplan, C. Sauer, A. Sosa // CoRR. — 2017. — Т. abs/1704.05539. — arXiv: 1704.05539. — URL: http://arxiv.org/abs/ 1704.05539.

73. Text2Action: Generative Adversarial Synthesis from Language to Action [Текст] / H. Ahn [и др.] // 2018 IEEE International Conference on Robotics and Automation, ICRA 2018, Brisbane, Australia, May 21-25, 2018. — IEEE, 2018. — C. 1—5. — URL: https://doi.org/10.1109/ICRA.2018.8460608.

74. Gated-Attention Architectures for Task-Oriented Language Grounding [Текст] / D. S. Chaplot [и др.] // Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018 / под ред. S. A. McIlraith, K. Q. Weinberger. — AAAI Press, 2018. — C. 2819—2826. — URL: https: //www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/17425.

75. Zero-shot task generalization with multi-task deep reinforcement learning [Текст] / J. Oh [и др.] // Proceedings of the 34th International Conference on Machine Learning-Volume 70. — JMLR. org. 2017. — C. 2661—2670.

76. Shu, T. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning [Текст] / T. Shu, C. Xiong, R. Socher // 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. — OpenReview.net, 2018. — URL: https://openreview.net/ forum?id=SJJQVZW0b.

77. Botvinick, M. M. Hierarchically organized behavior and its neural foundations: A reinforcement learning perspective [Текст] / M. M. Botvinick, Y. Niv, A. G. Barto // Cognition. — 2009. — Т. 113, № 3. — С. 262—280.

78. Mann, T. A. Scaling Up Approximate Value Iteration with Options: Better Policies with Fewer Iterations [Текст] / T. A. Mann, S. Mannor // Proceedings of the 31th International Conference on Machine Learning, ICML 2014, Beijing, China, 21-26 June 2014. Т. 32. — JMLR.org, 2014. — С. 127—135. — (JMLR Workshop and Conference Proceedings). — URL: http: //proceedings.mlr.press/v32/mann14.html.

79. Sutton, R. S. Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning [Текст] / R. S. Sutton, D. Precup, S. Singh // Artificial intelligence. — 1999. — Т. 112, № 1/2. — С. 181—211.

80. Dietterich, T. G. Hierarchical reinforcement learning with the MAXQ value function decomposition [Текст] / T. G. Dietterich // Journal of Artificial Intelligence Research. — 2000. — Т. 13. — С. 227—303.

81. Dayan, P. Feudal Reinforcement Learning [Текст] / P. Dayan, G. E. Hinton // Advances in Neural Information Processing Systems 5, [NIPS Conference, Denver, Colorado, USA, November 30 - December 3, 1992] / под ред. S. J. Hanson, J. D. Cowan, C. L. Giles. — Morgan Kaufmann, 1992. — С. 271—278. — URL: http://papers.nips.cc/paper/714-feudal-reinforcement-learning.

82. Konidaris, G. D. Skill Discovery in Continuous Reinforcement Learning Domains using Skill Chaining [Текст] / G. D. Konidaris, A. G. Barto // Advances in Neural Information Processing Systems 22: 23rd Annual Conference on Neural Information Processing Systems 2009. Proceedings of a meeting held 7-10 December 2009, Vancouver, British Columbia, Canada / под ред. Y. Bengio [и др.]. — Curran Associates, Inc., 2009. —

C. 1015—1023. — URL: http://papers.nips.cc/paper/3683-skill-discovery-in-continuous-reinforcement-learning-domains-using-skill-chaining.

83. Bakker, B. Hierarchical reinforcement learning with subpolicies specializing for learned subgoals [Текст] / B. Bakker, J. Schmidhuber // Proceedings of the IASTED International Conference on Neural Networks and Computational Intelligence, NCI 2004, February 23-25, 2004, Grindelwald, Switzerland. — IASTED/ACTA Press, 2004. — C. 125—130.

84. Bacon, P. The Option-Critic Architecture [Текст] / P. Bacon, J. Harb,

D. Precup // Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, California, USA / под ред. S. P. Singh, S. Markovitch. — AAAI Press, 2017. — C. 1726—1734. — URL: http://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14858.

85. FeUdal Networks for Hierarchical Reinforcement Learning [Текст] / A. S. Vezhnevets [и др.] // Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017. Т. 70 / под ред. D. Precup, Y. W. Teh. — PMLR, 2017. — C. 3540—3549. — (Proceedings of Machine Learning Research). — URL: http://proceedings. mlr.press/v70/vezhnevets17a.html.

86. Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation [Текст] / T. D. Kulkarni [и др.] // Advances in neural information processing systems. — 2016. — C. 3675—3683.

87. Deep Successor Reinforcement Learning [Текст] / T. D. Kulkarni [и др.] // CoRR. — 2016. — Т. abs/1606.02396. — arXiv: 1606.02396. — URL: http: //arxiv.org/abs/1606.02396.

88. Strategic attentive writer for learning macro-actions [Текст] / A. Vezhnevets [и др.] // Advances in neural information processing systems. — 2016. — C. 3486—3494.

89. Florensa, C. Stochastic neural networks for hierarchical reinforcement learning [Текст] / C. Florensa, Y. Duan, P. Abbeel // arXiv preprint arXiv:1704.03012. — 2017.

90. Vilalta, R. A perspective view and survey of meta-learning [Текст] / R. Vilalta, Y. Drissi // Artificial intelligence review. — 2002. — Т. 18, № 2. — C. 77—95.

91. Sim-to-real transfer of robotic control with dynamics randomization [Текст] / X. B. Peng [и др.] // 2018 IEEE International Conference on Robotics and Automation (ICRA). — IEEE. 2018. — C. 1—8.

92. Meta Learning Shared Hierarchies [Текст] / K. Frans [и др.] // 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. — OpenReview.net, 2018. — URL: https://openreview.net/ forum?id=SyX0IeWAW.

93. Programmable Agents [Текст] / M. Denil [и др.] // CoRR. — 2017. — Т. abs/1706.06383. — arXiv: 1706.06383. — URL: http://arxiv.org/abs/ 1706.06383.

94. Anokhin, P. K. Biology and Neurophysiology of the Conditioned Reflex and Its Role in Adaptive Behavior [Текст] / P. K. Anokhin. — Oxford : Pergamon Press, 1974.

95. Redko, V. G. Theory of functional systems, adaptive critics and neural networks [Текст] / V. G. Redko, D. V. Prokhorov, M. S. Burtsev // Proceeding of the IEEE International Joint Conference on Neural Networks. Т. 3. — IEEE. 2004. — C. 1787—1792.

96. Project "Animat Brain": Designing the Animat Control System on the Basis of the Functional Systems Theory [Текст] / V. G. Redko [и др.] // Anticipatory Behavior in Adaptive Learning Systems. Т. 4520 / под ред. M. V. Butz [и др.]. — Springer Berlin Heidelberg, 2007. — C. 94—107. — (Lecture Notes in Computer Science).

97. Shirshova, M. P. Evolution of event and delay controlled neuronal network for locomotion [Текст] / M. P. Shirshova, M. S. Burtsev // Int'l Conf. Genetic and Evolutionary Methods GEM'14. — 2014. — C. 41—47.

98. Lakhman, K. Neuroevolution results in emergence of short-term memory in multi-goal environment [Текст] / K. Lakhman, M. Burtsev // Proceedings of the 15th annual conference on Genetic and evolutionary computation. — ACM. 2013. — C. 703—710.

99. Lakhman, K. Evolution, Development and Learning with Predictor Neural Networks [Текст] / K. Lakhman, M. Burtsev // ALIFE 14: The Fourteenth Conference on the Synthesis and Simulation of Living Systems. — The MIT Press, 07.2014. — С. 457—464. — (Дата обр. 13.08.2014).

100. Komarov, M. Adaptive functional systems: Learning with chaos [Текст] / M. Komarov, G. Osipov, M. Burtsev // Chaos: An Interdisciplinary Journal of Nonlinear Science. — 2010. — Т. 20, № 4. — С. 045119.

101. Riesenhuber, M. Hierarchical models of object recognition in cortex [Текст] / M. Riesenhuber, T. Poggio // Nature neuroscience. — 1999. — Т. 2, № 11. —

C. 1019—1025.

102. Oster, M. Computation with spikes in a winner-take-all network [Текст] / M. Oster, R. Douglas, S.-C. Liu // Neural computation. — 2009. — Т. 21, № 9. — С. 2437—2465.

103. Erd6s, P. On the evolution of random graphs [Текст] / P. Erd6s, A. Renyi // Publ. Math. Inst. Hungar. Acad. Sci. — 1960. — Т. 5. — С. 17—61.

104. Watts, D. J. Collective dynamics of 'small-world'networks [Текст] /

D. J. Watts, S. H. Strogatz // nature. — 1998. — Т. 393, № 6684. —

C. 440.

105. Barabasi, A.-L. Emergence of scaling in random networks [Текст] / A.-L. Barabasi, R. Albert // science. — 1999. — Т. 286, № 5439. — С. 509—512.

106. Kumaran, D. What learning systems do intelligent agents need? Complementary learning systems theory updated [Текст] / D. Kumaran,

D. Hassabis, J. L. McClelland // Trends in cognitive sciences. — 2016. — Т. 20, № 7. — С. 512—534.

107. Control of Memory, Active Perception, and Action in Minecraft [Текст] / J. Oh [и др.] // Proceedings of the 33nd International Conference on Machine Learning, ICML 2016, New York City, NY, USA, June 19-24, 2016. Т. 48 / под ред. M. Balcan, K. Q. Weinberger. — JMLR.org, 2016. — С. 2790—2799. — (JMLR Workshop and Conference Proceedings). — URL: http://proceedings.mlr.press/v48/oh16.html.

108. Parisotto, E. Neural Map: Structured Memory for Deep Reinforcement Learning [Текст] / E. Parisotto, R. Salakhutdinov // 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. — OpenReview.net, 2018. — URL: https : / / openreview . net / forum ? id = Bk9zbyZCZ.

109. Relational recurrent neural networks [Текст] / A. Santoro [и др.] // Advances in Neural Information Processing Systems. — 2018. — С. 7310—7321.

110. Progress & compress: A scalable framework for continual learning [Текст] / J. Schwarz [и др.] // arXiv preprint arXiv:1805.06370. — 2018.

111. Chen, Z. Lifelong machine learning [Текст] / Z. Chen, B. Liu // Synthesis Lectures on Artificial Intelligence and Machine Learning. — 2016. — Т. 10, № 3. — С. 1—145.

112. Taylor, M. E. An introduction to intertask transfer for reinforcement learning [Текст] / M. E. Taylor, P. Stone // Ai Magazine. — 2011. — Т. 32, № 1. — С. 15.

113. Misra, D. Mapping instructions and visual observations to actions with reinforcement learning [Текст] / D. Misra, J. Langford, Y. Artzi // arXiv preprint arXiv:1704.08795. — 2017.

114. Levy, A. Hierarchical Actor-Critic [Текст] / A. Levy, R. Platt, K. Saenko // arXiv preprint arXiv:1712.00948. — 2017.

115. Multi-level discovery of deep options [Текст] / R. Fox [и др.] // arXiv preprint arXiv:1703.08294. — 2017.

116. Hausknecht, M. Deep recurrent q-learning for partially observable mdps [Текст] / M. Hausknecht, P. Stone // CoRR, abs/1507.06527. — 2015. — Т. 7, № 1.

117. Thrun, S. Learning to learn: Introduction and overview [Текст] / S. Thrun, L. Pratt // Learning to learn. — Springer, 1998. — С. 3—17.

118. Hochreiter, S. Long short-term memory [Текст] / S. Hochreiter, J. Schmidhuber // Neural computation. — 1997. — Т. 9, № 8. — С. 1735—1780.

119. Learning feed-forward one-shot learners [Текст] / L. Bertinetto [и др.] // Advances in neural information processing systems. — 2016. — С. 523—531.

120. Mazebase: A sandbox for learning from games [Текст] / S. Sukhbaatar [и др.] // arXiv preprint arXiv:1511.07401. — 2015.

121. Bakker, B. Reinforcement Learning with Long Short-Term Memory [Текст] /

B. Bakker // Advances in Neural Information Processing Systems 14 [Neural Information Processing Systems: Natural and Synthetic, NIPS 2001, December 3-8, 2001, Vancouver, British Columbia, Canada] / под ред. T. G. Dietterich, S. Becker, Z. Ghahramani. — MIT Press, 2001. —

C. 1475—1482. — URL: http://papers.nips.cc/paper/1953-reinforcement-learning-with-long-short-term-memory.

122. Mastering atari, go, chess and shogi by planning with a learned model [Текст] / J. Schrittwieser [и др.] // arXiv preprint arXiv:1911.08265. — 2019.

123. Attention is All you Need [Текст] / A. Vaswani [и др.] // Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 4-9 December 2017, Long Beach, CA, USA / под ред. I. Guyon [и др.]. — 2017. — C. 5998—6008. — URL: http: //papers.nips.cc/paper/7181-attention-is-all-you-need.

124. Stabilizing Transformers for Reinforcement Learning [Текст] / E. Parisotto [и др.] // CoRR. — 2019. — Т. abs/1910.06764. — arXiv: 1910.06764. — URL: http://arxiv.org/abs/1910.06764.

125. AMRL: Aggregated Memory For Reinforcement Learning [Текст] / J. Beck [и др.] // 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. — OpenReview.net, 2020. — URL: https://openreview.net/forum?id=Bkl7bREtDr.

126. Unsupervised Predictive Memory in a Goal-Directed Agent [Текст] / G. Wayne [и др.] // CoRR. — 2018. — Т. abs/1803.10760. — arXiv: 1803.10760. — URL: http://arxiv.org/abs/1803.10760.

127. Tsymbalov, E. Dropout Strikes Back: Improved Uncertainty Estimation via Diversity Sampled Implicit Ensembles [Текст] / E. Tsymbalov, K. Fedyanin, M. Panov // ArXiv. — 2020. — Т. abs/2003.03274.

128. Distributional reinforcement learning with quantile regression [Текст] / W. Dabney [и др.] // Thirty-Second AAAI Conference on Artificial Intelligence. — 2018.

129. Exploration by random network distillation [Текст] / Y. Burda [и др.] // arXiv preprint arXiv:1810.12894. — 2018.

130. Agakov, D. B. F. The IM algorithm: a variational approach to information maximization [Текст] / D. B. F. Agakov // Advances in neural information processing systems. — 2004. — Т. 16, № 320. — С. 201.

131. Achiam, J. Surprise-based intrinsic motivation for deep reinforcement learning [Текст] / J. Achiam, S. Sastry // arXiv preprint arXiv:1703.01732. — 2017.

132. Werbos, P. J. Backpropagation through time: what it does and how to do it [Текст] / P. J. Werbos // Proceedings of the IEEE. — 1990. — Т. 78, № 10. — С. 1550—1560.

133. A Review of the Gumbel-max Trick and its Extensions for Discrete Stochasticity in Machine Learning [Текст] / I. A. Huijben [и др.] // arXiv preprint arXiv:2110.01515. — 2021.

134. Jaeger, H. Tutorial on training recurrent neural networks, covering BPPT, RTRL, EKF and the"echo state network"approach [Текст]. Т. 5 / H. Jaeger. — GMD-Forschungszentrum Informationstechnik Bonn, 2002.

135. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies [Текст] / S. Hochreiter [и др.]. — 2001.

136. Graves, A. Neural Turing Machines [Текст] / A. Graves, G. Wayne, I. Danihelka // CoRR. — 2014. — Т. abs/1410.5401. — arXiv: 1410.5401. — URL: http://arxiv.org/abs/1410.5401.

137. Linformer: Self-Attention with Linear Complexity [Текст] / S. Wang [и др.] // CoRR. — 2020. — Т. abs/2006.04768. — arXiv: 2006.04768. — URL: https: //arxiv.org/abs/2006.04768.

138. Emergent Tool Use From Multi-Agent Autocurricula [Текст] / B. Baker [и др.] // 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. — OpenReview.net, 2020. — URL: https://openreview.net/forum?id=SkxpxJBKwS.

139. Ha, D. Recurrent World Models Facilitate Policy Evolution [Текст] / D. Ha, J. Schmidhuber // Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, December 3-8, 2018, Montreal, Canada / под ред. S. Bengio [и др.]. —

2018. — C. 2455—2467. — URL: https://proceedings.neurips.cc/paper/2018/ hash/2de5d16682c3c35007e4e92982f1a2ba-Abstract.html.

140. Optimizing agent behavior over long time scales by transporting value [Текст] / C.-C. Hung [и др.] // Nature communications. — 2019. — Т. 10, № 1. — C. 1—12.

141. A Simple Neural Attentive Meta-Learner [Текст] / N. Mishra [и др.] // 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. — OpenReview.net, 2018. — URL: https://openreview.net/ forum?id=B1DmUzWAW.

142. Working Memory Graphs [Текст] / R. Loynd [и др.] // Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event. Т. 119. — PMLR, 2020. — C. 6404—6414. — (Proceedings of Machine Learning Research). — URL: http://proceedings.mlr.press/v119/ loynd20a.html.

143. Arjovsky, M. Unitary evolution recurrent neural networks [Текст] / M. Arjovsky, A. Shah, Y. Bengio // International Conference on Machine Learning. — 2016. — C. 1120—1128.

144. Le, Q. V. A Simple Way to Initialize Recurrent Networks of Rectified Linear Units [Текст] / Q. V. Le, N. Jaitly, G. E. Hinton // ArXiv. — 2015. — Т. abs/1504.00941.

145. Rotman, M. Shuffling Recurrent Neural Networks [Текст] / M. Rotman, L. Wolf // CoRR. — 2020. — Т. abs/2007.07324. — arXiv: 2007.07324. — URL: https://arxiv.org/abs/2007.07324.

146. Stooke, A. rlpyt: A research code base for deep reinforcement learning in pytorch [Текст] / A. Stooke, P. Abbeel // arXiv preprint arXiv:1909.01500. —

2019.

147. Kumar, S. Adaptive Transformers in RL [Текст] / S. Kumar, J. Parker, P. Naderian // arXiv preprint arXiv:2004.03761. — 2020.

148. Solving Deep Memory POMDPs with Recurrent Policy Gradients [Текст] / D. Wierstra [и др.] // Artificial Neural Networks - ICANN 2007, 17th International Conference, Porto, Portugal, September 9-13, 2007, Proceedings, Part I. Т. 4668 / под ред. J. M. de Sa [и др.]. — Springer, 2007. — С. 697—706. — (Lecture Notes in Computer Science). — URL: https://doi.org/10.1007/978-3-540-74690-4%5C_71.

149. Deep Reinforcement Learning on a Budget: 3D Control and Reasoning Without a Supercomputer [Текст] / E. Beeching [и др.] // CoRR. — 2019. — Т. abs/1904.01806. — arXiv: 1904.01806. — URL: http://arxiv.org/abs/1904. 01806.

Hullermeier, E. Aleatoric and epistemic uncertainty in machine learning: An introduction to concepts and methods [Текст] / E. Hiillermeier, W. Waegeman // Machine Learning. — 2021. — Т. 110, № 3. — С. 457—506.

Sutskever, I. Sequence to Sequence Learning with Neural Networks [Текст] / I. Sutskever, O. Vinyals, Q. V. Le // Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014, December 8-13 2014, Montreal, Quebec, Canada / под ред. Z. Ghahramani [и др.]. — 2014. — С. 3104—3112. — URL: https : / / proceedings . neurips . cc / paper / 2014 / hasVa14ac55a4f27472c5d894ec1c3c743d2-Abstract.html.

Large-scale study of curiosity-driven learning [Текст] / Y. Burda [и др.] // arXiv preprint arXiv:1808.04355. — 2018.

150.

151.

152.

Список рисунков

2.1 The diagram of the functional systems network architecture................25

2.2 Архитектура сети функциональных систем..............................27

2.3 Динамика активности ФС..................................................28

2.4 Четыре топологии стохастического графа для моделирования

среды в проведенных экспериментах......................................35

2.5 Кривые обучения агентов в средах на основе тороидального

решетчатого графа (Ж = 100). Буквы РБ обозначают результаты,

полученные под управлением сети ФС, а ЯЬ — результаты

алгоритма обучения с подкреплением. Цифры в скобках

показывают для какого вида стохастичности среды получены эти

результаты. Подобный рисунок наблюдается практически для

любой другой конфигурации сред.................... 37

2.6 Отношение среднего числа действий агента в первых 10 эпизодах к числу действий агента в последних 10 эпизодах. Каждая точка на графике соответствует отдельному обучению агента в среде на основе модели Барабаши-Альберт (независимо от размера среды) с первым типом стохастичности. На графике видно, что части запусков ЯЬ-агент после обучения показывает результаты хуже,

чем в самом его начале.......................... 38

2.7 Сравнение эффективности агентов РБК и модифицированной версии Q-leaгning на решетчатом графе(К=100). Каждая кривая это обучение одного алгоритма на одном виде среды. Репо^Т) -обозначает среду в которой состояние переходов обновляется каждые Т шагов. МЭР соответствует среде третьего типа, а Репорт!) - среде первого типа. Результаты оригинального Q-leaгning на тех же средах. Чем выше кривая, тем дольше был период обновления переходов в среде.................. 40

3.1 Архитектура нейросети алгоритма SEM-A2C. Зеленые блоки представляют обучаемые модули. Пунктирные синие и красные стрелочки обозначают поток информации между разными временными шагами через скрытые состояния рекуррентных модулей памяти. SEM-A2C кодирует текущее наблюдение Ot при помощи модуля Eobs. Задаче-ориентированный модуль памяти RNNtsm на вход получает векторные представления задачи gt и наблюдения Ot, как и состояние эпизодической памяти hSem. Наконец, выходные вектора эпизодической и задаче-ориентированной памяти обрабатываются головами порождающими стратегию Fpo1, предсказание функции ценности

Fval и предсказание завершения задачи Fсотр.............. 48

3.2 Частотная карта траекторий агентов задаче Такси .......... 54

3.3 Сверху: Средний процент успехов при выполнении задачи Pickup(C) в течении второй фазы обучения. Снизу: Процент успехов на задаче Deliver(C) в течении второй фазы обучения. Каждая кривая усреднена по 6 независимым запускам второй фазы. Затеменная область вокруг кривых показывает лучшие и худшие значения полученный на этих запусках............. 56

4.1 Обратное распространение ошибки в MemUP. Рекуррентная память дв обрабатывает последовательность. Количество целей предсказания К = 2 и длина раскрутки г = 2. Синими кружками обозначены состояния с наибольшими значениями неопределенности <i^(yk\xk). Наблюдение х2, отмеченное красным кружком, содержит информацию, которая может помочь предсказать ут-2 и ут. В конце раскрутки TBPTT шаги, связанные с высокой неопределенностью, выбираются для формирования множества U3 = {Т — 2,Т}. Затем т3, хт-2, Ут-2, %т, Ут используются для вычисления функции потерь в соответствии с уравнением. 4.6. Хотя х2 и ут могут быть разделены тысячами шагов, MemUP позволяет памяти определить полезность информации в х2 задействуя для вычисления градиентов только К + г = 4 элементов последовательности за раз.................. 67

4.2 Результаты на задачах обучения с учителем. По оси X отмечается длина последовательности на которых обучались модели. Ось Y соответствует результатам модели в конце обучения. Метрики: Inverted Accuracy (1. - Accuracy) в задачах Copy, Scattered copy и pMNIST, MSE в задаче Add. Все кривые усреднены по 3 запускам. . 79

4.3 Cреды для для тестирования долгосрочных временных зависимостей. 1) T-maze лабиринт в котором агент должен дойти до Т-образного перекрестка и выбрать один из поворотов (L или R). Подсказака о том, какой поворот верный предоставляется в самом начале. На каждом шаге агент может видеть только ту колонку клеток, в которой находится сам. 2,3) Задача Vizdoom-Two-Colors. Агент находится в комнате и постоянно теряет «здоровье». Чтобы пополнять здоровье агенту нужно собирать жилеты такого же цвета, что и колона. Эпизод длится 1050 шагов,

но после 45 шага колонна пропадает................... 83

4.4 ........................................ 85

4.5 Кривые обучения агентов в среде ViZDoom-Two-Colors. Все результаты усреднены по двум независимым запускам. Фаза предобучения памяти MemUP отмечена пунктирной линией....... 87

4.7 Каждая ячейка показывает среднее количество шагов градиентного спуска, которые потребовались для решения задачи (достижение среднеквадратичной ошибки в 0,05). По оси X отмечено количество непредсказуемых случайных событий в среде («Шумный Телевизор»). По оси Y отмечен размер множеств Ut, то есть количество событий высокой неопределенности, которые предсказывались в алгоритме MemUP. Более темные цвета означают более медленное решение. ........................ 93

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.