13.0
- Изучить параметризованную политику, которая может выбирать действия, не обращаясь к функции значения.
- Мы хотим узнать вектор веса политики
3.
Градиент некоторого показателя эффективности
Эти методы стремятся максимизировать производительность, поэтому их обновления приближаются к градиентному восхождению в эта:
PG Градиентное восхождение
Все методы, соответствующие этой общей схеме, называются методами градиента политики.
4.
Для изучения функций политики и ценности используется метод актер-критик.
(выученная политика — функция выученной ценности = действующее лицо — критик)
5.
Для эпизодического случая производительность определяется как значение начального состояния в соответствии с параметризованной политикой:
Для непрерывного случая производительность определяется как средняя ставка вознаграждения: