Обучение с подкреплением: Часть 2: Марковский процесс принятия решений

В предыдущем блоге мы узнали, как Агент совершает действия, не зависящие от какой-либо ситуации.

Теперь мы обсудим, как агент может изменить действие в другой ситуации или состоянии. Агент создает последовательность или траекторию, которая начинается так: S0, A0, R1, S1, A1, R2, S2, A2, R3,… (состояние, действие, награда)

Агент будет в состоянии S0 в момент времени t=0, затем выполнит A0, и в зависимости от среды агент получит R1 и достигнет состояния S1.

Марковский процесс принятия решений (MDP) предоставляет формальный способ представления взаимодействия агента со средой, когда агент выполняет действия в разных состояниях, чтобы максимизировать совокупное вознаграждение.

MDP — это последовательное принятие решений, когда действия влияют не только на немедленное вознаграждение, но и на последующие состояния.

Динамика MDP может быть представлена моделью перехода, которая определяет вероятность перехода для каждой пары состояние-действие, и моделью вознаграждения, которая присваивает вознаграждение парам состояние-действие.

Рассмотрим классический пример, известный как задача «Замерзшее озеро». В этой задаче агент перемещается по замерзшему озеру, представленному грид-миром. Цель агента — добраться до определенного места (целевое состояние), избегая дыр во льду (конечное состояние).

Марковский процесс принятия решений использует 5 основных компонентов для моделирования проблемы:

· Состояния.Каждое состояние представляет местоположение агента в gridworld. Например, в сетке 4x4 есть 16 возможных состояний, где каждая ячейка представляет собой состояние.

· Действия. В каждом состоянии агент может выполнять четыре действия: двигаться вверх, вниз, влево или вправо. Эти действия определяют движение агента по gridworld.

· Переходы. Переходы определяют динамику системы. Переходы могут быть как стохастическими, так и детерминированными. Мы обсудим это подробнее в следующем блоге.

· Награды. Агент получает немедленное вознаграждение в зависимости от своих действий и полученного состояния. Например, достижение целевого состояния дает положительное вознаграждение (+1), падение в яму дает отрицательное вознаграждение (-1), а все остальные действия получают небольшое отрицательное вознаграждение (например, -0,01), чтобы побудить агента достичь цель быстро.

· Политика. Политика определяет стратегию принятия решений агентом. В этом примере политика может представлять собой сопоставление состояний с действиями, указывающее предпочтительное действие агента в каждом состоянии. Цель состоит в том, чтобы найти оптимальную политику, которая максимизирует совокупное вознаграждение.

Взаимодействуя с окружающей средой, агент учится на результатах и корректирует свою политику, чтобы со временем улучшить процесс принятия решений. Цель состоит в том, чтобы найти политику, которая максимизирует совокупное вознаграждение, помогая агенту успешно перемещаться по замерзшему озеру и достигать целевого состояния, избегая ям.

Рассмотрим другой пример. Агент должен добраться до пункта назначения, который даст награду +100. Есть два пути, чтобы добраться до места. Если Агент выберет путь А, он немедленно получит награду +5 и достигнет места назначения. Но если агент выберет путь B, он получит вознаграждение в размере +50 в более длинном забеге. Общая награда за путь A составляет 105, а за путь B — 150.

Если агент незрячий, что означает, что он может видеть награды только в следующем состоянии, тогда агент выберет путь A.

Но если каким-то образом агент станет дальновидным, то он сможет выбрать путь Б и получить максимальное вознаграждение. Это может быть достигнуто с помощью функции возврата.

Гамма — это параметр между 0 и 1, называемый ставкой дисконтирования. Это среднее геометрическое, которое можно свести к приведенному ниже уравнению, если R = 1.

Если задача является эпизодической, что означает, что взаимодействие агента и среды естественным образом разбивается на последовательность отдельных задач, то результатом будет следующее уравнение

В следующем блоге мы обсудим, как мы можем использовать функцию возврата, чтобы оценить, какое состояние или действие лучше всего подходит для данной среды.

Спасибо, что потратили свое время на этот блог. Я открыт для предложений и улучшений. Пожалуйста, дайте мне знать, если я пропустил какие-либо детали в этой статье.

Ссылка:

Обучение с подкреплением: введение - Ричард С. Саттон и Эндрю Дж. Барто

Обучение с подкреплением: Часть 2: Марковский процесс принятия решений

Вопросы по теме