В обучении с подкреплением агенты принимают случайные решения в своей среде и учатся выбирать правильное из многих для достижения своей цели и игры на сверхчеловеческом уровне. Сети политик и ценностей используются вместе в таких алгоритмах, как Поиск по дереву Монте-Карло для выполнения обучения с подкреплением. Обе сети являются неотъемлемой частью метода под названием Исследование в алгоритме MCTS.
Они также известны как итерация политики и итерация значения, поскольку они вычисляются много раз, что делает его итерационным процессом.
Давайте разберемся, почему они так важны для машинного обучения и в чем разница между ними?
Что такое сеть политик?
Рассмотрим любую игру в мире, ввод 🎮, вводимый пользователем в игру, известен как действия a
. Каждый ввод (действие) приводит к другому результату. Эти выходные данные известны как состояния s
игры.
Исходя из этого, мы можем создавать различные пары состояние-действие S = {(s0,a0),s1,a1),...,(sN,aN)}
, представляющие, какие действия aN
приводят к каким состояниям sN.
Кроме того, мы можем сказать, что S содержит все политики, полученные сетью политик.
Сеть, которая учится давать определенный результат, давая конкретный вход в игру, известна как Сеть политик.
Например: Вход a1
дает состояние s1
(движение вверх), а Ввод a2
дает состояние s2
(движение вниз) в игре.
Кроме того, некоторые действия увеличивают очки игрока и приводят к награде r.
Давайте посмотрим на некоторые очевидные символы:
Почему мы используем коэффициент скидки γ
Он используется в качестве меры предосторожности (обычно ниже 1). Это препятствует тому, чтобы вознаграждение r достигло бесконечности.
Бесконечная награда за политику сокрушит нашего агента и предвзято относится к этому конкретному действию, убивая желание исследовать неизвестные области и действия в игре😵.
Но как мы узнаем, какое состояние выбрать для следующего хода, который в конечном итоге приведет к финальному раунду?
Что такое сеть создания ценности?
Сеть значений присваивает значение / счет состоянию игры, вычисляя ожидаемую совокупную оценку для текущего состояния
s
. Каждое государство проходит через сеть создания ценности. Состояния, которые получают больше вознаграждения, очевидно, получают большую ценность в сети.
Помните, что вознаграждение - это ожидаемое вознаграждение, потому что мы выбираем правильное из набора состояний.
Теперь ключевая цель всегда - максимизировать вознаграждение (он же Марковский процесс принятия решений). Действия, которые приводят к хорошему состоянию, очевидно, получают большую награду, чем другие.
Поскольку любая игра выигрывается, выполняя последовательность действий одно за другим. Оптимальная политика π*
игры состоит из нескольких пар состояние-действие, которые помогают выиграть игру.
Пара состояние-действие, которая обеспечивает наибольшее вознаграждение, считается оптимальной политикой.
Формально уравнение оптимальной политики записывается с использованием arg max как:
Таким образом, оптимальная политика подсказывает нам, какие действия следует предпринять, чтобы максимизировать совокупное дисконтированное вознаграждение.
Оптимальная политика, изученная сетью политик, знает, какие действия следует выполнить в текущем состоянии, чтобы получить максимальное вознаграждение.
Если у вас есть какие-либо сомнения, вопросы или требования, оставьте комментарий ниже или напишите мне в Твиттере.
Хлопайте в ладоши… Поделитесь! Подпишитесь на меня в Medium, чтобы получать похожий забавный контент.
Чтобы получать мгновенное уведомление, подпишитесь на меня в Twitter.
Рад быть полезным. Престижность.