Глубокое обучение с подкреплением было одной из самых крутых концепций, появившихся в недавнем прошлом.
Именно эта статья DeepMind представила эту концепцию и заставила компьютер научиться играть в игры Atari, просто начав заново и обучаясь, совершая ошибки, и постепенно поправляясь после получения награды.
УСИЛЕНИЕ ОБУЧЕНИЯ (Q-Learning)
Основными компонентами обучения с подкреплением являются:
- Набор состояний среды: например, различные состояния в игре в определенный момент времени.
- Набор действий: например, "Вверх", "Вниз", "Влево", "Вправо" и кнопка "огонь".
- Правила перехода между состояниями: нам нужно отслеживать лучшее следующее состояние, в которое мы можем перейти.
- Правила, определяющие скалярную немедленную награду за переход: для каждого перехода, который решает выполнить алгоритм, есть связанное вознаграждение, связанное с этим шагом (например, когда вы убиваете против соперника вы получаете положительную награду, а когда вы получаете травму, вы получаете отрицательную награду)
Q-Learning
Q-Learning работает путем изучения таблицы состояния-действия Q (S, A). Для каждого состояния S и действия A он пытается запомнить максимальное вознаграждение в текущем состоянии и предпринимает действие A из этого состояния S.
Эта таблица Q (S, A) изучается в несколько этапов вначале, чтобы получить представление о местности и различных позициях за столом. Алгоритм запускается в раннем детстве и после нескольких игр, в зависимости от получаемых наград, алгоритм изучает благоприятные действия в различных состояниях, таким образом постепенно улучшаясь.
Глубокое Q-обучение
В структуре Deep Q-Learning вместо таблицы Q (S, A) используется нейронная сеть, возможно, многослойная, параметризованная тета.
Суть Deep Q Learning заключается в том, что пара состояние, действие кодируется в вектор и передается через многоуровневую сеть, а выходом сети является оценочное значение Q. Таким образом, в каждом состоянии рассматриваются все возможные действия, и наилучшее действие выбирается на основе максимального значения Q из Сети.
Обучение
Используется метод, известный как воспроизведение опыта, в котором каждый опыт на каждом временном шаге объединяется с множеством эпизодов, называемых воспроизведением воспоминаний. Во время обучения производится выборка памяти воспроизведения, которая используется для обучения многослойной нейронной сети с использованием градиентного спуска.
Преимущества Deep Q-Learning
- Традиционная таблица Q непропорциональна для игр среднего размера из-за количества возможных состояний в нескольких играх, таких как Chess and Go, и даже в видеоиграх, таких как Atari.
- Традиционная таблица Q требует нескольких проходов через все состояния и нескольких начальных фиктивных игр, чтобы изучить всю таблицу Q благоприятных состояний и действий.
- Deep Q-Learning предлагает сильно сжатое представление в терминах единственной нейронной сети и, следовательно, ускоряет обучение, а также решает проблему хранения огромной таблицы Q в памяти.
Связывание незакрепленных частей и концов
- Система использует CNN для получения характеристик состояния игры, которые программа видит на экране аркадной игры Atari.
- Они смогли показать результаты не столь конкурентоспособные, как люди, но на несколько порядков лучше, чем у традиционных методов Q-Learning, таких как SARSA.
Как Alphago использует DEEP Q-Learning
Он использует 4 сети:
- Сеть политики быстрого развертывания (P-Network): она представляет собой быстрый план игры.
- Сеть политик контролируемого обучения (SL-Network): P-Network и SL-Network обучены предсказывать движения человека-эксперта в наборе данных о позициях.
- Сеть политик обучения с подкреплением (RL-сеть): сеть RL инициализируется как сеть политик SL, а затем улучшается с помощью обучения градиентов политик для максимизации результата (т. е. выигрыша большего количества игр) по сравнению с предыдущими версии политики сети. Новый набор данных генерируется путем самостоятельной игры с сетью политик RL.
- Сеть ценностей: сеть ценностей V обучается с помощью регрессии предсказывать ожидаемый результат (то есть, выиграет ли текущий игрок) в позициях из набора данных самостоятельной игры.
Заключительные слова
Структура обучения с подкреплением - это золотой стандарт, которого мы пытаемся достичь с точки зрения искусственного интеллекта, агента с искусственным интеллектом, который учится самостоятельно в новой среде на основе обратной связи, которую он получает от окружающей среды. Именно так люди и животные учатся на своих ошибках и неудачах.
Я считаю, что Deep-Q-Learning - это еще один шаг вперед в этом направлении с использованием нейронной сети для прогнозирования оценочного Q-значения любой пары состояние-действие, аналогично тому, как мы, люди, оцениваем все возможные шаги на конкретном этапе. могут быть обобщены для более общих задач, тогда как такие системы, как Джарвис, скоро не появятся.