13.0

  1. Изучить параметризованную политику, которая может выбирать действия, не обращаясь к функции значения.
  2. Мы хотим узнать вектор веса политики

3.

Градиент некоторого показателя эффективности

Эти методы стремятся максимизировать производительность, поэтому их обновления приближаются к градиентному восхождению в эта:

PG Градиентное восхождение

Все методы, соответствующие этой общей схеме, называются методами градиента политики.

4.

Для изучения функций политики и ценности используется метод актер-критик.

(выученная политика — функция выученной ценности = действующее лицо — критик)

5.

Для эпизодического случая производительность определяется как значение начального состояния в соответствии с параметризованной политикой:

Для непрерывного случая производительность определяется как средняя ставка вознаграждения: