Обобщенное обучение с глубоким подкреплением

Что означает искусственный интеллект PlaNet от Google AI для исследований обучения с подкреплением и как трансферное обучение играет ключевую роль

В наши дни трансферное обучение очень популярно в сообществе машинного обучения.

Трансферное обучение служит основой для многих управляемых сервисов AutoML, предоставляемых Google, Salesforce, IBM и Azure. Теперь он занимает видное место в последних исследованиях НЛП - он появляется в модели двунаправленных кодировщиков из трансформеров (BERT) Google и в Универсальной языковой модели тонкой настройки для классификации текста (ULMFIT) Себастьяна Рудера и Джереми Ховарда.

Как пишет Себастьян в своем блоге: Настал момент для ImageNet НЛП:

Эти работы сделали заголовки, продемонстрировав, что предварительно обученные языковые модели могут использоваться для достижения современных результатов по широкому кругу задач НЛП. Такие методы знаменуют переломный момент: они могут иметь такое же широкое влияние на НЛП, как предварительно обученные модели ImageNet на компьютерное зрение.

Мы также начинаем видеть примеры нейронных сетей, которые могут выполнять несколько задач с помощью передачи обучения между доменами. У Paras Chopra есть отличный учебник для одной сети PyTorch, который может выполнять поиск изображений на основе текстового описания, искать похожие изображения и слова и писать подписи к изображениям (ссылка на его сообщение ниже).

Одна нейронная сеть, много применений
Создавайте поиск изображений, подписи к изображениям, похожие слова и похожие изображения, используя единую модель в отношенииdatascience.com

Главный вопрос: может ли переносное обучение найти применение в обучении с подкреплением?

По сравнению с другими методами машинного обучения, глубокое обучение с подкреплением имеет репутацию голодного по данным, нестабильного процесса обучения (см. Статью Deepmind о RL с нейронными сетями) и отстающей с точки зрения производительности. Есть причина, по которой основными областями и случаями применения обучения с подкреплением являются игры или робототехника, а именно сценарии, которые могут генерировать значительные объемы смоделированных данных.

В то же время многие считают, что обучение с подкреплением по-прежнему является наиболее жизнеспособным подходом к достижению общего искусственного интеллекта (AGI). Тем не менее, обучение с подкреплением постоянно сталкивается со способностью обобщать множество задач в различных условиях - ключевой атрибут интеллекта.

В конце концов, обучение - непростая задача. Эти агенты обучения с подкреплением должны обрабатывать и получать эффективные репрезентации своей среды, когда эти среды имеют как многомерные сенсорные входы, так и либо не имеют представления о прогрессе, вознаграждении или успехе, либо имеют чрезвычайно запоздалое представление. Кроме того, они должны использовать эту информацию для обобщения прошлого опыта на новые ситуации.

До этого момента методы обучения с подкреплением и исследования были в основном сосредоточены на выполнении индивидуальных задач. Мне было интересно узнать, может ли трансферное обучение помочь научным исследованиям в обучении с подкреплением достичь универсальности, поэтому я был очень взволнован, когда в начале этого года команда Google AI выпустила Агент Deep Planning Network (PlaNet).

За PlaNet

В рамках проекта агенту PlaNet была поставлена задача «спланировать» последовательность действий для достижения такой цели, как балансирование полюсов, обучение виртуальной сущности (человека или гепарда) ходьбе или поддержание вращения ящика, ударяя по нему в определенном месте.

Из оригинального сообщения в блоге Google AI, представляющего PlaNet, вот шесть задач (плюс проблемы, связанные с этой задачей):

Балансировка на тележке: начиная с позиции балансировки, агент должен быстро распознать, что полюс остается поднятым.
Cartpole Swingup: с фиксированной камерой, поэтому тележка может перемещаться вне поля зрения. Таким образом, агент должен поглощать и запоминать информацию в нескольких кадрах.
Вращение пальца: требуется предсказание двух отдельных объектов, а также взаимодействия между ними.
Cheetah Run: включает контакты с землей, которые трудно предсказать точно, что требует модели, которая может предсказать несколько возможных вариантов будущего.
Поймать за чашку: дает редкий сигнал вознаграждения только после того, как мяч пойман. Это требует точных прогнозов на далекое будущее, чтобы спланировать точную последовательность действий.
Walker Walk: симулированный робот начинает лежать на земле и сначала должен научиться вставать, а затем ходить.

У этих задач есть несколько общих целей, которые должен был достичь PlaNet:

Агенту необходимо предсказать множество возможных вариантов будущего (для надежного планирования).
Агенту необходимо обновить план на основе результатов / наград за недавнее действие.
Агенту необходимо сохранять информацию на протяжении многих временных шагов.

Так как же команде Google AI удалось достичь этих целей?

PlaNet AI… а остальное?

PlaNet AI ознаменовал отход от традиционного обучения с подкреплением по трем направлениям:

Обучение с помощью модели скрытой динамики - PlaNet учится на серии скрытых или скрытых состояний вместо изображений, чтобы предсказать дальнейшее развитие скрытого состояния.
Планирование на основе моделей - PlaNet работает без сети политик и вместо этого принимает решения на основе непрерывного планирования.
Трансферное обучение. Команда Google AI обучила одного агента PlaNet решению всех шести различных задач.

Давайте углубимся в каждый из этих отличий и посмотрим, как они влияют на производительность модели.

Модель скрытой динамики №1

Основное решение авторов здесь заключалось в том, использовать ли компактные латентные состояния или исходные сенсорные входы из окружающей среды.

Здесь есть несколько компромиссов. Использование компактного скрытого пространства означает дополнительный удар по сложности, потому что теперь агент не только должен научиться побеждать в игре, но и должен выстроить понимание визуальных концепций в игре - это кодирование и декодирование изображений требует значительных вычислений.

Ключевые преимущества использования компактных пространств скрытых состояний заключаются в том, что это позволяет агенту изучать более абстрактные представления, такие как положения и скорости объектов, а также избегать необходимости генерировать изображения. Это означает, что фактическое планирование происходит намного быстрее, потому что агенту нужно только предсказывать будущие вознаграждения, а не изображения или сценарий.

В настоящее время все чаще используются модели скрытой динамики, поскольку исследователи утверждают, что одновременное обучение модели скрытой динамики в сочетании с предоставленным вознаграждением создаст скрытое встраивание, чувствительное к факторам вариации, относящимся к сигналу вознаграждения, и нечувствительным к посторонним факторам. смоделированная среда, используемая во время обучения .

Ознакомьтесь с прекрасной статьей Об использовании глубинных автоэнкодеров для эффективного встроенного обучения с подкреплением, в которой говорится:

В автономных встроенных системах часто бывает жизненно важно уменьшить количество действий, предпринимаемых в реальном мире, и уменьшить количество энергии, необходимой для изучения политики. Обучение агентов обучения с подкреплением на основе многомерных представлений изображений может быть очень дорогостоящим и трудоемким. Автоэнкодеры - это глубокая нейронная сеть, используемая для сжатия многомерных данных, таких как пиксельные изображения, в небольшие скрытые представления.

# 2 Планирование на основе моделей или без моделей

Обучение с подкреплением на основе моделей пытается заставить агентов узнать, как мир ведет себя в целом. Вместо того, чтобы напрямую сопоставлять наблюдения с действиями, это позволяет агенту явно планировать заранее, более тщательно выбирать действия, «воображая» их долгосрочные результаты. Преимущество подхода, основанного на модели, заключается в том, что он намного эффективнее сэмплов, а это означает, что он не изучает каждую новую задачу с нуля.

Один из способов взглянуть на разницу между обучением с подкреплением без модели и на основе модели - это определить, оптимизируем ли мы максимальную отдачу или наименьшую стоимость (без модели = максимальное вознаграждение, а на основе модели = наименьшие затраты).

Безмодельные методы обучения с подкреплением, такие как использование градиентов политик, могут быть решениями грубой силы, когда правильные действия в конечном итоге обнаруживаются и включаются в политику. Градиенты политики должны действительно испытывать положительное вознаграждение и испытывать его очень часто, чтобы в конечном итоге и постепенно сместить параметры политики в сторону повторения действий, которые приносят высокие вознаграждения.

Одно интересное замечание: как тип задачи влияет на то, какой подход вы можете выбрать. В замечательном посте Андрея Капарти Deep Reinforcement Learning: Pong from Pixel s »он описывает игры / задачи, в которых градиенты политики могут победить людей:

«Во многих играх Policy Gradients довольно легко победить человека. В частности, все с частыми сигналами вознаграждения, требующими точной игры, быстрых рефлексов и не слишком долгого долгосрочного планирования, было бы идеальным, поскольку эти краткосрочные корреляции между вознаграждением и действиями можно легко «заметить» по подходу, а исполнение тщательно отточено политикой. Вы можете увидеть намеки на то, что это уже происходит в нашем агенте Pong: он разрабатывает стратегию, в которой он ждет мяч, а затем быстро бросается, чтобы поймать его на краю, который запускает его быстро и с высокой вертикальной скоростью. Агент набирает несколько очков подряд, повторяя эту стратегию. Есть много игр ATARI, в которых Deep Q Learning таким образом разрушает базовую производительность человека - например, Пинбол, прорыв и т. Д. »

# 3 Трансферное обучение

После первой игры агент PlaNet уже имел элементарное понимание гравитации и динамики и мог повторно использовать знания в следующих играх. В результате PlaNet часто был в 50 раз эффективнее, чем предыдущие методы, которые учились с нуля. Это означало, что агенту нужно было просмотреть только пять кадров анимации (буквально 1/5 секунды отснятого материала), чтобы предсказать, как последовательность будет продолжаться с удивительно высокой точностью. С точки зрения реализации это означает, что команде не нужно было обучать шесть отдельных моделей, чтобы добиться стабильной производительности при выполнении задач.

Из статьи: «PlaNet решает множество задач управления на основе изображений, конкурируя с продвинутыми агентами без моделей с точки зрения конечной производительности, при этом в среднем на 5000% эффективнее данные ... Эта изученная динамика может быть независимой от какой-либо конкретной задачи и, следовательно, имеют потенциал хорошо переноситься на другие задачи в окружающей среде »

Оцените потрясающий прирост эффективности данных, который PlaNet имел по сравнению с D4PG всего за 2000 эпизодов:

А также эти графики зависимости производительности теста от количества собранных эпизодов (PlaNet выделен синим цветом):

Это невероятно захватывающие результаты, которые означают новую эру в области эффективного и обобщаемого обучения с подкреплением. Следите за этим пространством!

Хотите узнать больше? Вот еще несколько полезных ресурсов по обучению с подкреплением: