StarCraft II — одна из самых сложных сред для обучения с подкреплением (RL), она требует от агентов RL разумного стратегического планирования на долгосрочную перспективу с выполнением в реальном времени.
В то время как онлайн-алгоритмы обучения с подкреплением (RL) добились больших успехов за счет обучения в сложных условиях, для большинства реальных приложений агентам RL требуется обучение в автономном режиме, что требует более сложного автономного эталонного теста RL для обучения агентов.
В новой статье AlphaStar Unplugged: крупномасштабное автономное обучение с подкреплением исследовательская группа DeepMind представляет AlphaStar Unplugged, беспрецедентно сложный тест крупномасштабного автономного обучения с подкреплением, в котором используется автономный набор данных из StarCraft II для агентов RL. обучения, а его базовый автономный агент достигает 90% побед по сравнению с предыдущим современным агентом под наблюдением AlphaStar.
Команда рассматривает StarCraft II как игру для двух игроков, которая сочетает в себе высокоуровневую дальновидность и быстрое и деликатное управление юнитами. Он подходит для сравнительного анализа алгоритмов обучения с подкреплением в автономном режиме из-за большого количества повторов для обучающих агентов и простого метода оценки путем игры против людей.
Предлагаемый AlphaStar Unplugged создан на основе среды обучения StarCraft II и связанных с ней игровых повторов. Исследователи резюмируют свой основной вклад в создание сложного автономного теста RL следующим образом:
- Настройка обучения. Мы фиксируем набор данных и набор правил для обучения, чтобы иметь справедливое сравнение между методами.
- Показатель оценки. Мы предлагаем набор показателей для измерения производительности агентов.
- Базовые агенты. Мы предоставляем ряд хорошо настроенных базовых агентов.
- Открытый исходный код. Создание агента, который хорошо работает в StarCraft II, — это огромная инженерная задача. Мы предоставляем хорошо настроенный агент клонирования поведения, который образует основу для всех агентов, представленных в этой статье.