Эта статья изначально была написана Камилем Качмареком и размещена в блоге Neptune.

На прошлой неделе я имел удовольствие принять участие в Международной конференции по репрезентациям обучения (ICLR), мероприятии, посвященном исследованиям всех аспектов репрезентативного обучения, широко известного как глубокое обучение. Конференция стала виртуальной из-за пандемии коронавируса, и благодаря огромным усилиям ее организаторов мероприятие привлекло еще большую аудиторию, чем в прошлом году. Их целью было сделать конференцию инклюзивной и интерактивной, и с моей точки зрения вид, как посетитель, это было определенно так!

Вдохновленный презентациями более 1300 спикеров, я решил создать серию сообщений в блоге, в которых обобщаются лучшие статьи в четырех основных областях. Вы можете ознакомиться с первым постом о лучших статьях по глубокому обучению здесь, а сегодня пришло время для 15 лучших статей по обучению с подкреплением от ICLR.

Лучшие документы по обучению с подкреплением

1. Никогда не сдавайся: стратегии исследования, направленного на обучение

Мы предлагаем обучающий агент с подкреплением для решения сложных исследовательских игр, изучая ряд направленных исследовательских политик.

(TL;DR, из OpenReview.net)

"Бумага"

(слева) Учебная архитектура для сети встраивания (справа) Генератор вознаграждений NGU.

Основные авторы:

Адриа Пучдоменек Бадиа

ЛинкедИн| Гитхаб

Пабло Шпрехманн

Твиттер| ЛинкедИн

2. Агент с программным управлением

Мы предлагаем модульную структуру, которая может выполнять задачи, заданные программами, и обеспечивать беспрепятственное обобщение более сложных задач.

(TL;DR, из OpenReview.net)

"Бумага"

Иллюстрация предложенной задачи. Мы заинтересованы в том, чтобы научиться выполнять задачи, указанные в написанных программах. Программа состоит из управляющих потоков (например, if, while), условий ветвления (например, is_there[River]) и подзадач (например, mine(Wood)).

Первый автор: Шао-Хуа Сунь

Твиттер| ЛинкедИн | Гитхаб

3. Обучение с подкреплением на основе моделей для Atari

Мы используем модели видеопрогнозирования, основанный на моделях алгоритм обучения с подкреплением и 2 часа геймплея на игру, чтобы обучить агентов 26 играм Atari.

(TL;DR, из OpenReview.net)

Бумага| "Код"

Основной цикл SimPLe. 1) агент начинает взаимодействовать с реальной средой в соответствии с последней политикой (инициализированной случайным образом). 2) собранные наблюдения будут использованы для обучения (обновления) текущей модели мира. 3) агент обновляет политику, действуя внутри модели мира. Новая политика будет оцениваться для измерения производительности агента, а также для сбора дополнительных данных (назад к 1). Обратите внимание, что обучение модели мира самоконтролируется для наблюдаемых состояний и контролируется для вознаграждения.

Основные авторы:

Лукаш Кайзер

Твиттер | ЛинкедИн | Гитхаб

Блажей Осинский

ЛинкедИн

4. Поиск и визуализация слабых сторон агентов глубокого обучения с подкреплением

Мы генерируем критические состояния обученных алгоритмов RL для визуализации потенциальных слабых мест.

(TL;DR, из OpenReview.net)

"Бумага"

Качественные результаты: Визуализация различных целевых функций (раздел 2.3). T+ генерирует состояния высокого вознаграждения и T- низкого вознаграждения; T± порождает состояния, в которых одно действие очень полезно, а другое — плохо.

Первый автор: Кристиан Рупрехт

Твиттер | ЛинкедИн | Гитхаб

5. Метаобучение без запоминания

Мы идентифицируем и формализуем проблему запоминания в метаобучении и решаем эту проблему с помощью нового метода метарегуляризации, который значительно расширяет область, в которой метаобучение может быть применимо и эффективно.

(TL;DR, из OpenReview.net)

Бумага | "Код"

Слева: пример невзаимоисключающих задач прогнозирования позы, которые могут привести к проблеме запоминания. Учебные задачи не являются взаимоисключающими, потому что метка тестовых данных (справа) может быть точно выведена без использования данных обучения задачи (слева) в задачах обучения путем запоминания канонической ориентации метаобучающих объектов. Для нового объекта и канонической ориентации (внизу) задача не может быть решена без использования данных обучения задаче (внизу слева) для определения канонической ориентации. Справа: графическая модель метаобучения. Наблюдаемые переменные заштрихованы. Без какой-либо из пунктирных стрелок Yˆ∗ условно не зависит от D при заданных θ и X∗, что мы называем полным запоминанием (определение 1).

Основные авторы

Минчжан Инь

Твиттер | ЛинкедИн | Гитхаб

Челси Финн

Твиттер | Гитхаб | "Веб-сайт"

6. Достаточно ли хорошего представления для эффективного обучения с подкреплением?

Экспоненциальные нижние границы для обучения с подкреплением на основе ценности и политики с аппроксимацией функции.

(TL;DR, из OpenReview.net)

"Бумага"

Пример с H = 3. Для этого примера имеем r(s5) = 1 и r(s) = 0 для всех остальных состояний s. Единственное состояние s5, удовлетворяющее условию r(s) = 1, отмечено на рисунке штрихом. Индуцированная функция Q∗ отмечена на ребрах.

Первый автор: Саймон С. Ду

Твиттер | ЛинкедИн| "Веб-сайт"

7. Ингредиенты роботизированного обучения с подкреплением в реальном мире

Система для изучения роботизированных задач в реальном мире с обучением с подкреплением без инструментов.

(TL;DR, из OpenReview.net)

"Бумага"

Иллюстрация предлагаемой нами системы без инструментов, требующей минимальной человеческой инженерии. Вмешательство человека требуется только на этапе сбора целей (1). Робот остается тренироваться без присмотра (2) на этапе обучения и может оцениваться из произвольных начальных состояний в конце обучения (3). Мы показываем образец цели и промежуточные изображения из процесса обучения реальной аппаратной системы.

Первый автор: Генри Чжу

ЛинкедИн | "Веб-сайт"

8. Улучшение обобщения в метаобучении с подкреплением с использованием выученных целей

Мы представляем MetaGenRL, новый алгоритм обучения метаподкреплению. В отличие от предыдущей работы, MetaGenRL может обобщаться на новые среды, которые полностью отличаются от тех, которые используются для метаобучения.

(TL;DR, из OpenReview.net)

"Бумага"

Схема MetaGenRL. Слева популяция агентов (i ∈ 1,...,N), где каждый член состоит из критика Q (i) θ и политики π (i) φ, которые взаимодействуют с конкретной средой e(i) и сохранять собранные данные в соответствующем буфере воспроизведения B(i). Справа метаобученная нейронная целевая функция Lα, которая является общей для всей популяции. Обучение (пунктирные стрелки) происходит следующим образом: каждая политика обновляется путем дифференцирования Lα, а критик обновляется с помощью обычной TD-ошибки (не показана). Lα изучается путем вычисления градиентов второго порядка, которые могут быть получены путем дифференцирования с помощью критика.

Первый автор: Луи Кирш

Твиттер| ЛинкедИн | Гитхаб | "Веб-сайт"

9. Осмысление обучения с подкреплением и вероятностного вывода

Популярные алгоритмы, которые выдают «RL как вывод», игнорируют роль неопределенности и исследования. Мы подчеркиваем важность этих проблем и представляем согласованную основу для RL и логических выводов, которая изящно справляется с ними.

(TL;DR, из OpenReview.net)

"Бумага"

Сожаление о масштабировании проблемы 1. Мягкое Q-обучение не масштабируется изящно с N.

Первый автор: Брендан О’Донохью.

Твиттер | ЛинкедИн | Гитхаб

10. SEED RL: масштабируемое и эффективное глубокое RL с ускоренным центральным выводом

SEED RL, масштабируемый и эффективный агент глубокого обучения с подкреплением и ускоренным центральным выводом. Современные результаты, снижение затрат и возможность обработки миллионов кадров в секунду.

(TL;DR, из OpenReview.net)

Бумага | "Код"

Обзор архитектур

Первый автор: Лассе Эспехольт

ЛинкедИн | Гитхаб

11. Многоагентное обучение с подкреплением для управления сетевой системой

В этой статье предлагается новая формулировка и новый коммуникационный протокол для сетевых задач мультиагентного управления.

(TL;DR, из OpenReview.net)

Бумага | "Код"

Прямое распространение NeurComm с поддержкой MARL, проиллюстрированное в системе очередей. (a) Одношаговое прямое распространение внутри агента i. Разные цветные прямоугольники и стрелки показывают разные выходы и функции соответственно. Сплошные и пунктирные стрелки указывают на распространение актера и критика соответственно. (b) Многошаговое распространение вперед для обновления убеждений агента i.

Первый автор: Тяньшу Чу

"Веб-сайт"

12. Обобщенный подход к многоагентному обучению

В этом документе рассматриваются и расширяются оракулы ответа на основе политик (PSRO). Это популяционный метод обучения, основанный на принципах теории игр. Авторы расширяют этот метод, чтобы он был применим к многопользовательским играм, обеспечивая при этом гарантии конвергенции в нескольких настройках.

"Бумага"

Обзор фаз алгоритма PSRO(M, O).

Первый автор: Пол Мюллер

"Веб-сайт"

13. Вопросы реализации в глубоком RL: пример использования PPO и TRPO

Иногда детали реализации могут играть роль в вашем исследовании. Здесь были оценены два алгоритма поиска политики: оптимизация проксимальной политики (PPO) и оптимизация политики доверенной области (TRPO). «Оптимизация на уровне кода» должна быть незначительной в динамике обучения. Удивительно, но оказалось, что h-оптимизация сильно влияет на поведение агента.

Бумага | "Код"

Исследование абляции первых четырех оптимизаций, описанных в разделе 3 (отсечение значения, масштабирование вознаграждения, инициализация сети и отжиг скорости обучения). Для каждой из 24 возможных конфигураций оптимизации мы обучаем агента Humanoid-v2 (вверху) и Walker2d-v2 (внизу), используя PPO с пятью случайными начальными значениями и сеткой скоростей обучения, и выбираем скорость обучения, которая дает наилучшее среднее значение. вознаграждение (усредненное по случайным семенам). Затем мы учитываем все награды от прогонов с «лучшим уровнем обучения» (всего 5 × 24 агента) и строим гистограммы, в которых агенты разделены в зависимости от того, включена ли каждая оптимизация или нет. Наши результаты показывают, что нормализация вознаграждения, отжиг Адама и инициализация сети существенно влияют на ландшафт вознаграждений в отношении гиперпараметров и необходимы для достижения наивысшего вознаграждения PPO в протестированной сетке гиперпараметров.

Основные авторы:

Логан Энгстрем

Твиттер | Гитхаб | "Веб-сайт"

Александр Мадри

Твиттер | Гитхаб | "Веб-сайт"

14. Пристальный взгляд на градиенты глубокой политики

Это углубленное эмпирическое исследование поведения алгоритмов глубокого градиента политики. Авторы анализируют методы SOTA, основанные на оценке градиента, прогнозировании стоимости и ландшафтах оптимизации.

"Бумага"

Эмпирическая дисперсия предполагаемого градиента (см. (1)) как функция количества пар состояние-действие, использованных при оценке в задаче MuJoCo Humanoid. Мы измеряем среднее попарное косинусное сходство между десятью повторными измерениями градиента, взятыми из одной и той же политики, с доверительными интервалами 95% (заштрихованы). Для каждого алгоритма мы проводим несколько испытаний с одинаковыми конфигурациями гиперпараметров, но с разными случайными начальными значениями, показанными на рисунке повторяющимися линиями. Вертикальная линия (при x = 2K) указывает режим выборки, используемый для оценки градиента в стандартных реализациях методов политики градиента. В целом, кажется, что для получения сильно концентрированных оценок градиента потребуется значительно больше выборок, чем используется на практике, особенно после первых нескольких временных шагов. Для других задач, таких как Walker2d-v2 и Hopper-v2, графики имеют аналогичные тенденции, за исключением того, что дисперсия градиента немного ниже. Доверительные интервалы рассчитаны с бутстрэппингом из 500 выборок.

Основные авторы:

Андрей Ильяс

Твиттер| Гитхаб | "Веб-сайт"

Александр Мадри

Твиттер | Гитхаб | "Веб-сайт"

15. Мета-Q-обучение

MQL — это простой внеполитический алгоритм мета-RL, который повторно использует данные из буфера воспроизведения мета-обучения для адаптации к новым задачам.

(TL;DR, из OpenReview.net)

"Бумага"

Насколько хорошо работает мета-RL? Средняя отдача от задач проверки по сравнению с двумя прототипами алгоритмов мета-RL, MAML (Finn et al., 2017) и PEARL (Rakelly et al., 2019), с результатами стандартного алгоритма Q-обучения под названием TD3 (Fujimoto et al. , 2018b), который был изменен для включения переменной контекста, которая является представлением траектории из задачи (TD3-контекст). Даже без метаобучения и адаптации под новую задачу TD3-контекст конкурентоспособен с этими сложными алгоритмами.

Основные авторы:

Расул Факур

Твиттер | ЛинкедИн | Гитхаб | "Веб-сайт"

Александр Дж. Смола

Твиттер| ЛинкедИн | "Веб-сайт"

Резюме

Глубина и широта публикаций ICLR весьма вдохновляют. Здесь я только что представил верхушку айсберга, сосредоточившись на теме обучения с подкреплением. Однако, как вы можете прочитать в этом анализе, на конференции обсуждались четыре основные темы:

  1. Глубокое обучение (описано в этом посте)
  2. Обучение с подкреплением (вы только что прочитали)
  3. Генеративные модели (описано в этой публикации)
  4. Обработка/понимание естественного языка (описано в этой публикации)

Чтобы создать более полный обзор основных статей ICLR, мы создаем серию сообщений, каждое из которых посвящено одной теме, упомянутой выше. Вы можете проверить их для более полного обзора.

Не стесняйтесь поделиться с нами другими интересными статьями по обучению с подкреплением, и мы с удовольствием добавим их в список.

Наслаждайся чтением!

Эта статья изначально была написана Камилем Качмареком и размещена в блоге Neptune. Там вы можете найти более подробные статьи для специалистов по машинному обучению.