Заинтересованы в понимании алгоритма, используемого AlphaGo для победы над чемпионом мира среди людей? Тогда эта статья для вас.

Мы обсудим, что такое обучение с подкреплением (RL), элементы усиленного обучения, термины, относящиеся к RL, такие как функция ценности и функция значения Q. Что такое оптимальная политика? и как найти оптимальную политику? RL компромисс между эксплуатацией и разведкой.

Когда мы дети, подростки или взрослые, когда нам нужно освоить новый навык, нам либо есть кому помочь, либо мы учимся самостоятельно, методом проб и ошибок.

  • Помните, как мы впервые начали учиться ездить на велосипеде. За каждую ошибку нас наказывали: мы падали с мотоцикла и получали травмы. Основываясь на допущенной нами ошибке, мы поняли, какие действия необходимо предпринять для исправления. Каждый раз, когда мы делали правильный шаг, наша уверенность росла. Это была награда за правильный поступок. Когда мы освоили этот навык, мы теперь были оснащены для принятия корректирующих действий в зависимости от различных состояний, с которыми мы можем столкнуться при езде на велосипеде из пункта А в пункт Б.

Давайте сопоставим это с усиленным обучением .

  • Обучение с подкреплением - это сопоставление ситуаций или состояний с действиями с целью максимизации вознаграждения.
  • Учащемуся не говорят, что делать. Скорее, учащемуся необходимо выяснить действие, которое принесет максимальное вознаграждение, методом проб и ошибок
  • Обучение с подкреплением - это вычислительный подход к пониманию и автоматизации целенаправленного обучения и принятия решений

Элементы усиленного обучения

  1. Состояние системы
  2. Действия
  3. Вероятности перехода
  4. Награды
  5. Политика
  6. Метрика производительности

У усиленного обучения есть господин, обучаемый и среда, в которую встроен агент.

В нашем примере с велосипедом мы - агент, пытающийся научиться ездить на велосипеде. Окружающая среда учится ездить на велосипеде или управлять им, чтобы добраться из точки А в точку Б.

Агент учится на тесном взаимодействии с окружающей средой. Агент определяет состояние (а) окружающей среды, а затем предпринимает некоторые действия (а). Воздействие агента на среду вызывает изменение состояния среды. Среда является стохастической, и каждый раз, когда мы предпринимаем какое-то действие, мы можем перейти в другое состояние.

Вероятность перехода из одного состояния s1 в другое состояние s2 на основе действия a1 равна Вероятность перехода P (s1, a1, s2). Если у нас есть 3 состояния и 2 действия, то у нас есть 9 вероятностей перехода для каждого действия.

В нашем примере с велосипедом состоянием может быть скорость велосипеда, наклон маршрута или гравий на дороге, а действием может быть уменьшение скорости велосипеда или наклон велосипеда под некоторым углом. Если у нас есть два состояния, гладкая дорога и гравийная дорога, то вероятности перехода могут быть от гладкой дороги к гладкой, гладкой дороги к гравийной дороге, гравийной дороги к гравийной дороге или от гравийной дороги к гладкой дороге.

Действие агента должно заключаться в максимальном увеличении вознаграждения. Награда - это мера обратной связи, которую получает агент о предпринятых действиях. Награды, которые агент ожидает получить в будущем, зависят от того, какие действия он предпримет. Это скалярное значение, которое представляет степень желательности состояния или действия.

Цель агента в усиленном обучении - изучить оптимальную политику, которая максимизирует сумму вознаграждений в долгосрочной перспективе.

Политика сопоставляет воспринимаемые состояния окружающей среды с действиями, предпринимаемыми агентом, которые принесут максимальное вознаграждение. Следование политике порождает траектории или пути.

В случае езды на велосипеде награда не падает, а продвигается вперед, чтобы добраться до пункта назначения.

Математически усиленное обучение можно записать как Марковский процесс принятия решений (MDP)

«ɤ» - коэффициент дисконтирования, определяющий приведенную стоимость будущих вознаграждений. Оно имеет скалярное значение от 0 до 1. Q-Learning использует будущие вознаграждения.

Фактор скидки можно рассматривать как компромисс между мгновенным и долгосрочным вознаграждением.

Если коэффициент дисконтирования равен 0, агент заинтересован в максимизации немедленного вознаграждения. По мере приближения коэффициента дисконтирования к 1 агент учитывает большее количество будущих вознаграждений.

MDP - это вероятностная модель задачи последовательного решения, в которой состояния могут быть точно восприняты.

Текущее состояние и действие, выбранные для определения распределения вероятностей будущих состояний. «Результат» действия, применяемого к состоянию, зависит только от текущего действия и состояния.

Прежде чем понять, как найти оптимальную политику, давайте разберемся с такими ключевыми терминами, как «функция значения» и «функции Q-значения».

Значение Функция

  • Алгоритмы усиленного обучения основаны на функции оценки ценности. Функция Value сообщает, насколько хорошо выполнить действие a в заданном состоянии s. Также называется «функцией значения состояния».
  • Ценностные функции пытаются найти оптимальную политику, которая максимизирует вознаграждение, получаемое агентом.
  • Функция значения в состоянии s - это ожидаемое совокупное вознаграждение за соблюдение политики π.
  • Ценность состояния представляет собой долгосрочное вознаграждение, полученное, начиная с начального состояния при выполнении определенной политики.

Функция Q-значения

  • Функция Q-ценности - это функция ценности действия для политики π.
  • Функция Q-value в состоянии s и действие a - это ожидаемая совокупная награда от выполнения действия a в состоянии s, а затем в соответствии с политикой π.

Поиск оптимальной политики

  • Оптимальная политика дает наилучшее ожидаемое вознаграждение.
  • Функции значений назначаются каждому состоянию или паре состояние-действие в политике при условии, что агент использует политику.
  • Функция оптимальной ценности - это наибольшая ожидаемая доходность или вознаграждение, достижимое с помощью любой политики.
  • Политика π считается оптимальной, если функция ожидаемого вознаграждения или ценности для политики больше или равна вознаграждениям для политики π для всех состояний. Мы обозначаем оптимальную политику как π *.

Градиент политики

Чтобы найти оптимальную политику, мы также можем использовать градиент политики.

В градиенте политики у нас есть политики, параметризованные по весу θ. Для каждой политики мы находим совокупную сумму будущих вознаграждений J (θ). Политика с max J (θ) - наша оптимальная политика.

Мы делаем это, используя градиентный подъем на параметрах политики θ.

Усиленное обучение: компромисс между эксплуатацией и разведкой

Обучение с подкреплением может включать в себя последовательность из множества действий и множества наград. В RL агент должен явно исследовать свою среду. Мы можем сделать это либо путем эксплуатации, либо разведки.

Когда мы учимся кататься на велосипеде, мы можем либо учиться в одном и том же известном месте каждый день, используя наши текущие знания, либо исследовать новые места и поверхности и собирать больше знаний.

Для данного контекста, когда мы совершаем действие, мы получаем вознаграждение в размере 1, но мы не знаем, является ли это наилучшей возможной наградой.

Эксплуатация

  • Мы можем воспользоваться нашей текущей политикой и продолжить действие a, чтобы быть относительно уверенными в получении награды в 1 балл.
  • Использование известной информации для оптимизации вознаграждения.
  • Эксплуатация означает выполнение действий на основе текущей, лучшей версии изученной политики - действия, которые, как мы знаем, принесут высокую награду.
  • Эксплуатация предпочтительна, когда у агента мало времени для получения вознаграждения.

Исследование

  • Мы также можем изучить, попробовав другое действие a. Мы можем либо получить награду 2, либо получить награду 0.
  • Изучая неизвестные состояния и действия, мы получили некоторые знания.
  • Исследование предпочтительнее, когда агент долго получает вознаграждение. Исследование помогает в будущих действиях, поскольку их можно планировать более эффективно, имея больше знаний.
  • По мере того, как время идет и наша усвоенная политика совершенствуется, мы все больше приближаемся к эксплуатации.

Краткое введение о том, как AlphaGo побеждает чемпионов мира

  • Украшайте доску каменным цветом, двигайте легальность.
  • Инициализируйте сеть политик с помощью контролируемого обучения из профессиональных игр го.
  • Обучение с использованием градиента политики (игра против самого себя из случайных предыдущих итераций, +1 / -1 награда за победу / поражение).
  • Узнай ценность сети (критик).
  • Наконец, объедините сети политик и ценностей в алгоритме поиска по дереву Монте-Карло, чтобы выбрать действия с помощью опережающего поиска.

Поделитесь ею и похлопайте, если вам понравилась статья!

Использованная литература:

Ричард С. Саттон и Эндрю Дж. Барто

Https://www.youtube.com/watch?v=lvoHnicueoE&list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv&index=14

Https://www.youtube.com/watch?v=E5ApIOPu7ps

Http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture14.pdf