Глубокое обучение с подкреплением-PG 13.0

13.0

Изучить параметризованную политику, которая может выбирать действия, не обращаясь к функции значения.
Мы хотим узнать вектор веса политики

Градиент некоторого показателя эффективности

Эти методы стремятся максимизировать производительность, поэтому их обновления приближаются к градиентному восхождению в эта:

PG Градиентное восхождение

Все методы, соответствующие этой общей схеме, называются методами градиента политики.

Для изучения функций политики и ценности используется метод актер-критик.

(выученная политика — функция выученной ценности = действующее лицо — критик)

Для эпизодического случая производительность определяется как значение начального состояния в соответствии с параметризованной политикой:

Для непрерывного случая производительность определяется как средняя ставка вознаграждения: