Глубокое обучение с подкреплением было одной из самых крутых концепций, появившихся в недавнем прошлом.

Именно эта статья DeepMind представила эту концепцию и заставила компьютер научиться играть в игры Atari, просто начав заново и обучаясь, совершая ошибки, и постепенно поправляясь после получения награды.

УСИЛЕНИЕ ОБУЧЕНИЯ (Q-Learning)

Основными компонентами обучения с подкреплением являются:

  • Набор состояний среды: например, различные состояния в игре в определенный момент времени.
  • Набор действий: например, "Вверх", "Вниз", "Влево", "Вправо" и кнопка "огонь".
  • Правила перехода между состояниями: нам нужно отслеживать лучшее следующее состояние, в которое мы можем перейти.
  • Правила, определяющие скалярную немедленную награду за переход: для каждого перехода, который решает выполнить алгоритм, есть связанное вознаграждение, связанное с этим шагом (например, когда вы убиваете против соперника вы получаете положительную награду, а когда вы получаете травму, вы получаете отрицательную награду)

Q-Learning

Q-Learning работает путем изучения таблицы состояния-действия Q (S, A). Для каждого состояния S и действия A он пытается запомнить максимальное вознаграждение в текущем состоянии и предпринимает действие A из этого состояния S.

Эта таблица Q (S, A) изучается в несколько этапов вначале, чтобы получить представление о местности и различных позициях за столом. Алгоритм запускается в раннем детстве и после нескольких игр, в зависимости от получаемых наград, алгоритм изучает благоприятные действия в различных состояниях, таким образом постепенно улучшаясь.

Глубокое Q-обучение

В структуре Deep Q-Learning вместо таблицы Q (S, A) используется нейронная сеть, возможно, многослойная, параметризованная тета.

Суть Deep Q Learning заключается в том, что пара состояние, действие кодируется в вектор и передается через многоуровневую сеть, а выходом сети является оценочное значение Q. Таким образом, в каждом состоянии рассматриваются все возможные действия, и наилучшее действие выбирается на основе максимального значения Q из Сети.

Обучение

Используется метод, известный как воспроизведение опыта, в котором каждый опыт на каждом временном шаге объединяется с множеством эпизодов, называемых воспроизведением воспоминаний. Во время обучения производится выборка памяти воспроизведения, которая используется для обучения многослойной нейронной сети с использованием градиентного спуска.

Преимущества Deep Q-Learning

  • Традиционная таблица Q непропорциональна для игр среднего размера из-за количества возможных состояний в нескольких играх, таких как Chess and Go, и даже в видеоиграх, таких как Atari.
  • Традиционная таблица Q требует нескольких проходов через все состояния и нескольких начальных фиктивных игр, чтобы изучить всю таблицу Q благоприятных состояний и действий.
  • Deep Q-Learning предлагает сильно сжатое представление в терминах единственной нейронной сети и, следовательно, ускоряет обучение, а также решает проблему хранения огромной таблицы Q в памяти.

Связывание незакрепленных частей и концов

  • Система использует CNN для получения характеристик состояния игры, которые программа видит на экране аркадной игры Atari.
  • Они смогли показать результаты не столь конкурентоспособные, как люди, но на несколько порядков лучше, чем у традиционных методов Q-Learning, таких как SARSA.

Как Alphago использует DEEP Q-Learning

Он использует 4 сети:

  • Сеть политики быстрого развертывания (P-Network): она представляет собой быстрый план игры.
  • Сеть политик контролируемого обучения (SL-Network): P-Network и SL-Network обучены предсказывать движения человека-эксперта в наборе данных о позициях.
  • Сеть политик обучения с подкреплением (RL-сеть): сеть RL инициализируется как сеть политик SL, а затем улучшается с помощью обучения градиентов политик для максимизации результата (т. е. выигрыша большего количества игр) по сравнению с предыдущими версии политики сети. Новый набор данных генерируется путем самостоятельной игры с сетью политик RL.
  • Сеть ценностей: сеть ценностей V обучается с помощью регрессии предсказывать ожидаемый результат (то есть, выиграет ли текущий игрок) в позициях из набора данных самостоятельной игры.

Заключительные слова

Структура обучения с подкреплением - это золотой стандарт, которого мы пытаемся достичь с точки зрения искусственного интеллекта, агента с искусственным интеллектом, который учится самостоятельно в новой среде на основе обратной связи, которую он получает от окружающей среды. Именно так люди и животные учатся на своих ошибках и неудачах.

Я считаю, что Deep-Q-Learning - это еще один шаг вперед в этом направлении с использованием нейронной сети для прогнозирования оценочного Q-значения любой пары состояние-действие, аналогично тому, как мы, люди, оцениваем все возможные шаги на конкретном этапе. могут быть обобщены для более общих задач, тогда как такие системы, как Джарвис, скоро не появятся.