Глубокое обучение с подкреплением

Глубокое обучение с подкреплением было одной из самых крутых концепций, появившихся в недавнем прошлом.

Именно эта статья DeepMind представила эту концепцию и заставила компьютер научиться играть в игры Atari, просто начав заново и обучаясь, совершая ошибки, и постепенно поправляясь после получения награды.

УСИЛЕНИЕ ОБУЧЕНИЯ (Q-Learning)

Основными компонентами обучения с подкреплением являются:

Набор состояний среды: например, различные состояния в игре в определенный момент времени.
Набор действий: например, "Вверх", "Вниз", "Влево", "Вправо" и кнопка "огонь".
Правила перехода между состояниями: нам нужно отслеживать лучшее следующее состояние, в которое мы можем перейти.
Правила, определяющие скалярную немедленную награду за переход: для каждого перехода, который решает выполнить алгоритм, есть связанное вознаграждение, связанное с этим шагом (например, когда вы убиваете против соперника вы получаете положительную награду, а когда вы получаете травму, вы получаете отрицательную награду)

Q-Learning

Q-Learning работает путем изучения таблицы состояния-действия Q (S, A). Для каждого состояния S и действия A он пытается запомнить максимальное вознаграждение в текущем состоянии и предпринимает действие A из этого состояния S.

Эта таблица Q (S, A) изучается в несколько этапов вначале, чтобы получить представление о местности и различных позициях за столом. Алгоритм запускается в раннем детстве и после нескольких игр, в зависимости от получаемых наград, алгоритм изучает благоприятные действия в различных состояниях, таким образом постепенно улучшаясь.

Глубокое Q-обучение

В структуре Deep Q-Learning вместо таблицы Q (S, A) используется нейронная сеть, возможно, многослойная, параметризованная тета.

Суть Deep Q Learning заключается в том, что пара состояние, действие кодируется в вектор и передается через многоуровневую сеть, а выходом сети является оценочное значение Q. Таким образом, в каждом состоянии рассматриваются все возможные действия, и наилучшее действие выбирается на основе максимального значения Q из Сети.

Обучение

Используется метод, известный как воспроизведение опыта, в котором каждый опыт на каждом временном шаге объединяется с множеством эпизодов, называемых воспроизведением воспоминаний. Во время обучения производится выборка памяти воспроизведения, которая используется для обучения многослойной нейронной сети с использованием градиентного спуска.

Преимущества Deep Q-Learning

Традиционная таблица Q непропорциональна для игр среднего размера из-за количества возможных состояний в нескольких играх, таких как Chess and Go, и даже в видеоиграх, таких как Atari.
Традиционная таблица Q требует нескольких проходов через все состояния и нескольких начальных фиктивных игр, чтобы изучить всю таблицу Q благоприятных состояний и действий.
Deep Q-Learning предлагает сильно сжатое представление в терминах единственной нейронной сети и, следовательно, ускоряет обучение, а также решает проблему хранения огромной таблицы Q в памяти.

Связывание незакрепленных частей и концов

Система использует CNN для получения характеристик состояния игры, которые программа видит на экране аркадной игры Atari.
Они смогли показать результаты не столь конкурентоспособные, как люди, но на несколько порядков лучше, чем у традиционных методов Q-Learning, таких как SARSA.

Как Alphago использует DEEP Q-Learning

Он использует 4 сети:

Сеть политики быстрого развертывания (P-Network): она представляет собой быстрый план игры.
Сеть политик контролируемого обучения (SL-Network): P-Network и SL-Network обучены предсказывать движения человека-эксперта в наборе данных о позициях.
Сеть политик обучения с подкреплением (RL-сеть): сеть RL инициализируется как сеть политик SL, а затем улучшается с помощью обучения градиентов политик для максимизации результата (т. е. выигрыша большего количества игр) по сравнению с предыдущими версии политики сети. Новый набор данных генерируется путем самостоятельной игры с сетью политик RL.
Сеть ценностей: сеть ценностей V обучается с помощью регрессии предсказывать ожидаемый результат (то есть, выиграет ли текущий игрок) в позициях из набора данных самостоятельной игры.

Заключительные слова

Структура обучения с подкреплением - это золотой стандарт, которого мы пытаемся достичь с точки зрения искусственного интеллекта, агента с искусственным интеллектом, который учится самостоятельно в новой среде на основе обратной связи, которую он получает от окружающей среды. Именно так люди и животные учатся на своих ошибках и неудачах.

Я считаю, что Deep-Q-Learning - это еще один шаг вперед в этом направлении с использованием нейронной сети для прогнозирования оценочного Q-значения любой пары состояние-действие, аналогично тому, как мы, люди, оцениваем все возможные шаги на конкретном этапе. могут быть обобщены для более общих задач, тогда как такие системы, как Джарвис, скоро не появятся.

Глубокое обучение с подкреплением - в основе AlphaGo

УСИЛЕНИЕ ОБУЧЕНИЯ (Q-Learning)

Заключительные слова

Вопросы по теме