Введение, MDP — Обучение с подкреплением #1

Введение в обучение с подкреплением

3 вида машинного обучения

Обучение под наблюдением (полу)
Неконтролируемое обучение
Обучение с подкреплением

1. Определение

Обучение с подкреплением — это один из видов машинного обучения, когда агент учится взаимодействовать с окружающей средой, чтобы максимизировать некоторое понятие кумулятивного вознаграждения.

2. Фоновая концепция

(a) Обучение под наблюдением:«учиться на примерах»

Вот несколько примеров хорошего или плохого, попробуйте изучить закономерности каждого

(b) Обучение с подкреплением:«учиться на собственном опыте»

Вот мир (среда), попытайтесь изучить закономерности, исследуя (взаимодействуя) с ним.

3. Базовая математика

В задачах RL мы описываем весь мир как марковские процессы принятия решений (MDP). Предполагается, что агент решает выбрать оптимальное действие на основе своего текущего состояния для получения наилучшего вознаграждения. Как мы можем найти оптимальные политики, основанные на опыте взаимодействия между агентом и средой?

Марковские процессы принятия решений (MDP)

MDP определяется как совокупность следующего:

Агент – учащийся или лицо, принимающее решения.

Окружающая среда: то, с чем он взаимодействует, в том числе все, что находится за пределами агента.

Штаты: S
Действия: А
Модель перехода: T(s,a,s’) ~ P(s’|s,a)
Награды: R(s), R(s,a), R(s,a,s’)
Политика: π(a|s) ~ P(Aₜ=a |Sₜ=s)
Коэффициент дисконтирования, γ ∈ [0,1]
Последовательность или траектория: S₀ A₀ R₁, S₁, A₁, R₂, …..
Динамика: p(s’,r |s, a) = Pr{Sₜ=s’, Rₜ=r | Sₜ₋₁ =с, Аₜ=а}
В марковском процессе принятия решений вероятности, заданные p, полностью характеризуют динамику среды. То есть вероятность каждого возможного значения для Sₜ и Rₜ зависит только от непосредственно предшествующих состояний и действий, Sₜ₋₁ и Aₜ₋₁, а при их наличии вовсе не от предшествующих состояний и действий.

В RL цель агента формализована в терминах вознаграждения, переходящего от среды к агенту. (Цель мало чем отличается от награды)

Цель агента — максимизировать общую сумму вознаграждения, которую он получает. (максимизация ожидаемого значения совокупной суммы вознаграждений)

В общем, мы стремимся максимизировать ожидаемую отдачу, где отдача, обозначаемая Gₜ, определяется как некоторая конкретная функция последовательности вознаграждений как

Этот подход имеет смысл в приложениях, в которых существует естественное понятие конечного временного шага, то есть когда взаимодействие агента и среды естественным образом разбивается на подпоследовательности, которые мы называем эпизодами, такие как игры, прогулки по лабиринту или любое повторяющееся взаимодействие.

Каждый эпизод заканчивается особым состоянием, называемым конечным состоянием, за которым следует сброс до стандартного начального состояния или выборки из стандартного распределения начальных состояний.

В некоторых случаях нет конечного состояния → продолжающиеся задачи

Скидки

Эта концепция необходима, поскольку мы хотели бы придать больший вес вознаграждению в ближайшем будущем при расчете совокупной суммы. Таким образом, агент пытается выбрать действия так, чтобы сумма дисконтированных вознаграждений, которые он получит в будущем, была максимальной.

Функции политик и значений

Функции ценности( v(s), q(s,a)): функция для оценки того, насколько хорошо агент должен быть в заданном состоянии (или в паре состояние-действие)

политика — это сопоставление состояний с вероятностями выбора каждого возможного действия. Если агент следует политике π в момент времени t, то π(a|s) — это вероятность того, что Aₜ = a, когда Sₜ = s

Для любой политики π и любого состояния s выполняется следующее условие согласованности между значением s и значением его возможных последующих состояний (уравнение Беллмана):

Пример функции значения (мир сетки)

Ячейки сетки соответствуют состояниям окружающей среды
Возможны четыре действия: север, юг, восток и запад (одинаковая вероятность)
Награда:
— Действия, которые бы предпринял агент вне сетки = -1 (состояние не изменится) - — Прочие действия = 0
— Из состояния А все четыре действия дают награду +10, переводя агента в А'
— Из Состояние B, все четыре действия дают награду +5, переводя агента в B'
Фактор скидки: 0,9

Обсуждение

Состояние A является лучшим состоянием для этой политики, но его ожидаемая отдача меньше 10, его немедленное вознаграждение, потому что из A агент попадает в A', из которого он, вероятно, столкнется с краем сетки. . Состояние B, с другой стороны, ценится больше, чем 5, его немедленная награда, потому что из B агент переводится в B', что имеет положительное значение. От B' ожидаемый штраф (отрицательное вознаграждение) за возможное столкновение с краем более чем компенсируется ожидаемым выигрышем за возможное столкновение с A или B.

Оптимальные политики и функции ценности

Решение задачи RL → поиск оптимальной политики

Политика π определяется как лучшая или равная политике π’, если ее ожидаемая доходность больше или равна доходности π’ для всех состояний. Другими словами,

π ≥ π’ тогда и только тогда, когда Vπ(s) ≥Vπ’(s) для всех s ∈ S

Оптимальная политика. Всегда существует по крайней мере одна политика, которая лучше или равна всем остальным политикам.

Функция оптимального значения (действие-значение)

Оптимальность и приближение

Даже если мы определили функции оптимальных значений и оптимальные политики выше для проблемы игрушек (пример мира сетки), на практике это редко происходит. Оптимальные политики могут быть созданы только с экстремальными вычислительными затратами в реальной жизни. Основное решение для этого состоит в том, чтобы аппроксимировать эти вещи.

Затем доступность памяти является важным ограничением в проблеме RL. В задачах с небольшими конечными наборами состояний мы можем использовать массив или таблицы (состояние или пара состояние-действие). В случае большего количества состояний функции должны быть аппроксимированы с использованием какого-либо представления параметризованной функции.

Как мы можем эффективно аппроксимировать эти значения? Некоторые состояния и действия хороши для обучения, другие состояния и пара действий плохи с точки зрения получения вознаграждения. Онлайн-характер обучения с подкреплением позволяет аппроксимировать оптимальные политики таким образом, чтобы приложить больше усилий для обучения принятию правильных решений для часто встречающихся состояний за счет меньших усилий для редко встречающихся состояний. (эксплуатация против исследования, ϵ-жадный алгоритм)

Справочник

[1] Саттон, Ричард С. и Эндрю Г. Барто. Обучение с подкреплением: введение. Массачусетский технологический институт, 2018 г.

[2] https://youtu.be/zR11FLZ-O9M