Метаданные

Авторы: Ричард С. Саттон и Эндрю Г. Барто (вперед, UMass!)

Издание: 2-е

Дата публикации: 13 ноября 2018 г.

Страниц: 552

Мой фон RL

Обучение с подкреплением (RL) какое-то время было на периферии моего обучения в университете. Мы проделали некоторую исследовательскую работу по определению контролируемого обучения как проблемы RL в нейронных сетях (SNN), и в итоге написали статью о преобразовании политик RL, параметризованных нейронными сетями, в SNN в BINDS lab.

SNN кажутся особенно подходящими для обучения на основе вознаграждения, поскольку существует множество идей, которые можно использовать в теоретической и экспериментальной нейробиологии, которые предполагают, что нейронные цепи обучаются в присутствии глобальных нейромодулирующих сигналов. Эти сигналы можно рассматривать как вознаграждение или подкрепление. Есть некоторая хорошая работа по выполнению RL с SNN (см., например, здесь и здесь), но многое еще предстоит сделать, прежде чем их можно будет использовать для RL в сложных средах.

Обзор книги

Я могу искренне порекомендовать Обучение с подкреплением: введение. Я начал с первого издания в конце 2018 года, понял, что было выпущено второе издание, и переключился на него. Следовательно, я пропустил часть нового материала в первых частях новой версии, но я планирую прочитать о них в ближайшее время.

Написание и темп книги очень хорошо сделаны. Меня особенно впечатлила способность авторов связывать концепции из каждой части книги, что дало отличный опыт обучения. Я не только смог уловить отдельные концепции по мере их введения, но и понял, как они связаны с более широкой картиной. В книге достаточно подробностей для реализации многих стандартных алгоритмов в RL, а идеи, лежащие в их основе, кратко объясняются и тщательно соотносятся друг с другом по мере их введения. Это позволяет читателю визуализировать «пространство» алгоритмов/подходов обучения с подкреплением и увидеть, где лежат пробелы в наших знаниях.

Часть I описывает проблему RL: агент стремится максимизировать кумулятивное (дисконтированное) вознаграждение от среды с течением времени. На каждом шаге времени (параметр формулировки агент-среда) агент получает наблюдение за окружающей средой, выбирает обусловленное им действие (и историю их взаимодействия) и получает награду. Это взаимодействие агента и среды часто формулируется как Марковский процесс принятия решений (MDP), …математическая основа для моделирования принятия решений в ситуациях, когда результаты частично случайны и частично находятся под контролем лица, принимающего решения. Существуют и другие подобные формализмы, такие как частично наблюдаемые МДП, но основное внимание в книге уделяется МДП.

Авторы описывают параметры, по которым различаются алгоритмы RL, и то, как они влияют на обучение: возврат n-шагов (временная разница) и «бесконечных шагов» (Монте-Карло), исследование и эксплуатация, итерация ценности. по сравнению с оптимизацией политики, трассировками приемлемости и тем, как они обобщают n-этапы возврата, подходы на основе моделей и без моделей, обучение на основе политики и вне политики, прогнозирование и контроль и т. д.

Существует краткое обсуждение динамического программирования, которое требует полного знания динамики среды. Авторы используют это в качестве основы для обсуждения методов аппроксимации значений и политического градиента, которые не имеют такого требования к известной динамике.

Методы на основе моделей строят модель среды и используют ее для планирования многих временных шагов в будущем или моделируют ее, чтобы не запрашивать сложные для вычислений или опасные реальные среды. Безмодельные методы учатся непосредственно в среде, улучшая функцию ценности, чтобы отражать истинное значение состояний среды, или напрямую оптимизируя политику, чтобы максимизировать кумулятивное дисконтированное вознаграждение.

Временная разница (TD) обучение является центральным компонентом обучения с подкреплением, и многие параллели проводятся между алгоритмами RL (инженерия), обучением у животных (поведенческая психология) и обучение нейронным цепям (неврология). TD-обучение …относится к классу немодальных методов обучения с подкреплением, которые учатся путем самонастройки на основе текущей оценки функции ценности. передает несоответствие ожиданий и реальности, что позволяет алгоритму обучения вносить коррективы, чтобы уменьшить это несоответствие.

Алгоритмы в соответствии с политикой собирают информацию об оцениваемой политике, а алгоритмы вне политики изучают значение «целевой политики» независимо от «поведенческой политики». Поведенческая политика часто достаточно похожа на целевую политику, так что взвешивание важности может использоваться для применения опыта, накопленного первым, для обновления параметров второго.

Методы машинного обучения используются в разделе «Приближенные методы решения», где особенности наблюдений за окружающей средой вычисляются с помощью модели ML или создаются экспертом-человеком. Они используются в тех случаях, когда пространство наблюдения за средой комбинаторно велико, из которого безнадежно найти оптимальную политику, а вместо этого наша цель — найти хорошее приближение. Например, недавний успех RL в играх Atari основан на понижении частоты дискретизации, суммировании и обработке видеокадров в игре с помощью сверточной нейронной сети, прежде чем можно будет выбрать действия.

Методы градиента политик оптимизируют параметрические политики, чтобы максимизировать скалярный показатель эффективности (часто кумулятивное дисконтированное вознаграждение), следуя градиенту показателя производительности по отношению к параметрам политики. Методы Актер-критик изучают как политику (актер), так и аппроксимацию функции значения (критик), последняя из которых используется в качестве базовой линии для уменьшения различий в обновлениях градиента политики.

Дилемма исследование или эксплуатация относится к компромиссу между исследованием окружающей среды для сбора информации и уменьшения неопределенности и использованием своих знаний об окружающей среде для получения максимального вознаграждения. Проще говоря, знания агента RL об окружающей среде можно было бы сначала максимизировать, а затем использовать для получения максимального вознаграждения. Этот процесс можно повторять до тех пор, пока не будет найдена хорошая (приблизительно оптимальная) политика. Исследование можно выполнить, следуя политике с высокой энтропией (например, действия, выбранные из равномерно случайного распределения), или следуя внутреннему вознаграждению, «движимому любопытством»; есть много возможных методов. Эксплуатация состоит в выборе действий, ведущих к максимальному ожидаемому вознаграждению.

Имея небольшой опыт работы в области неврологии, мне особенно понравились главы о психологии и неврологии, хотя последняя гораздо более убедительна, чем первая. Классическая и оперантная обусловленность парадигм обучения поведенческой психологии связаны с прогнозированием и контролем в обучении с подкреплением соответственно. Предполагается, что дофаминергические нейроны ответственны за выдачу далеко идущего сигнала ошибки предсказания вознаграждения, что предполагает биологическую реализацию обучения временной разнице.

Книга всеобъемлющая, и я не могу надеяться охватить здесь все. В общем, я рад, что у меня был этот ресурс, когда я начал свое исследование и применение обучения с подкреплением. Дайте ему прочитать и дайте мне знать, что вы думаете!