Политические сети против сетей ценностей в обучении с подкреплением

В обучении с подкреплением агенты принимают случайные решения в своей среде и учатся выбирать правильное из многих для достижения своей цели и игры на сверхчеловеческом уровне. Сети политик и ценностей используются вместе в таких алгоритмах, как Поиск по дереву Монте-Карло для выполнения обучения с подкреплением. Обе сети являются неотъемлемой частью метода под названием Исследование в алгоритме MCTS.

Они также известны как итерация политики и итерация значения, поскольку они вычисляются много раз, что делает его итерационным процессом.

Давайте разберемся, почему они так важны для машинного обучения и в чем разница между ними?

Что такое сеть политик?

Рассмотрим любую игру в мире, ввод 🎮, вводимый пользователем в игру, известен как действия a. Каждый ввод (действие) приводит к другому результату. Эти выходные данные известны как состояния s игры.

Исходя из этого, мы можем создавать различные пары состояние-действие S = {(s0,a0),s1,a1),...,(sN,aN)}, представляющие, какие действия aN приводят к каким состояниям sN. Кроме того, мы можем сказать, что S содержит все политики, полученные сетью политик.

Сеть, которая учится давать определенный результат, давая конкретный вход в игру, известна как Сеть политик.

Например: Вход a1 дает состояние s1 (движение вверх), а Ввод a2 дает состояние s2 (движение вниз) в игре.

Кроме того, некоторые действия увеличивают очки игрока и приводят к награде r.

Давайте посмотрим на некоторые очевидные символы:

Почему мы используем коэффициент скидки γ

Он используется в качестве меры предосторожности (обычно ниже 1). Это препятствует тому, чтобы вознаграждение r достигло бесконечности.

Бесконечная награда за политику сокрушит нашего агента и предвзято относится к этому конкретному действию, убивая желание исследовать неизвестные области и действия в игре😵.

Но как мы узнаем, какое состояние выбрать для следующего хода, который в конечном итоге приведет к финальному раунду?

Что такое сеть создания ценности?

Сеть значений присваивает значение / счет состоянию игры, вычисляя ожидаемую совокупную оценку для текущего состояния s. Каждое государство проходит через сеть создания ценности. Состояния, которые получают больше вознаграждения, очевидно, получают большую ценность в сети.

Помните, что вознаграждение - это ожидаемое вознаграждение, потому что мы выбираем правильное из набора состояний.

Теперь ключевая цель всегда - максимизировать вознаграждение (он же Марковский процесс принятия решений). Действия, которые приводят к хорошему состоянию, очевидно, получают большую награду, чем другие.

Поскольку любая игра выигрывается, выполняя последовательность действий одно за другим. Оптимальная политика π* игры состоит из нескольких пар состояние-действие, которые помогают выиграть игру.

Пара состояние-действие, которая обеспечивает наибольшее вознаграждение, считается оптимальной политикой.

Формально уравнение оптимальной политики записывается с использованием arg max как:

Таким образом, оптимальная политика подсказывает нам, какие действия следует предпринять, чтобы максимизировать совокупное дисконтированное вознаграждение.

Оптимальная политика, изученная сетью политик, знает, какие действия следует выполнить в текущем состоянии, чтобы получить максимальное вознаграждение.