Игры среднего поля, эволюционные игры и стохастические игры оказывают влияние на новое поколение систем обучения с подкреплением.

Это вторая часть статьи, в которой обсуждаются новые области теории игр, влияющие на системы глубокого обучения с подкреплением. Первая часть была посвящена типам игр, которые мы активно наблюдаем в многоагентных системах обучения с подкреплением. Сегодня я хотел бы осветить три новые области теории глубокого обучения, которые могут повлиять на новые поколения систем обучения с подкреплением.

Теория игр играет фундаментальный фактор в решениях современного искусственного интеллекта (ИИ). В частности, глубокое обучение с подкреплением (DRL) - это область ИИ, в которой теория игр рассматривается как первоклассный специалист. От одноагентных программ до сложных многоагентных сред DRL - динамика геймификации присутствует на протяжении всего жизненного цикла программ ИИ. Удивительно то, что стремительная эволюция DRL также вызвала новый интерес к исследованиям теории игр.

Связь между теорией игр и DRL кажется тривиальной. Агенты DRL обучаются посредством регулярного взаимодействия с окружающей средой и другими агентами (в случае многоагентного DRL). Включение стимулов в среду DRL - очень эффективный способ повлиять на обучение агентов. . Хотя большинство моделей DRL по-прежнему основаны на традиционных концепциях теории игр, таких как равновесие по Нэшу или игры с нулевой суммой, существуют новые методы, которые неуклонно становятся важным элементом программ ИИ. Давайте рассмотрим три новых направления теории игр, которые проникают в исследования DRL.

Среднее поле игры

Mean Field-Games (MFG) - относительно новая область в области теории игр. Теория MFG была разработана в 2006 году как часть серии независимых статей, опубликованных Миньи Хуангом, Роландом Малхаме и Питером Кейнсом в Монреале, а также Жаном-Мишелем Ласри и призером Филдса Пьером-Луи Лионсом в Париже. Концептуально MFG включает в себя методы и приемы изучения дифференциальных игр с большим количеством рациональных игроков. У этих агентов есть предпочтения не только в отношении своего состояния (например, богатство, капитал), но и в отношении распределения оставшихся индивидов в популяции. Изучение теории MFG обобщило равновесия по Нэшу для этих систем.

Классический пример MFG - это то, как группы рыб во время стая плавают в одном направлении и скоординированно. Теоретически это явление действительно сложно объяснить, но его корни в том, что рыба реагирует на поведение ближайшей группы. Более конкретно, каждая рыба не заботится о каждой из других рыб в отдельности, а, скорее, она заботится о том, как рыбы поблизости, как масса, перемещаются в глобальном масштабе. Если перевести это в математические термины, реакция рыб на массу описывается уравнением Гамильтона-Якоби-Беллмана. С другой стороны, совокупность действий рыб, определяющая движение массы, соответствует уравнению Фоккера-Планка-Колмогорова. Теория игр среднего поля представляет собой комбинацию этих двух уравнений.

С точки зрения DRL, MFG играет интересную роль в крупномасштабных средах с большим количеством агентов. До сих пор методы DRL оказались непрактичными в средах с почти бесконечным числом агентов, учитывая, что они требуют работы с неточными вероятностными моделями. MFG - интересный подход к моделированию этих сред DRL. Стартап по исследованию искусственного интеллекта Prowler недавно провел некоторую работу по оценке MFG в больших многоагентных средах DRL.

Стохастические игры

Стохастические игры восходят к 1950-м годам и были введены лауреатом Нобелевской премии экономистом Ллойдом Шепли. Концептуально в стохастические игры играет конечное число игроков в конечном пространстве состояний, и в каждом состоянии каждый игрок выбирает одно из конечного числа действий; Результирующий профиль действий определяет вознаграждение для каждого игрока и распределение вероятностей для последующих состояний.

Классическая форма стохастических игр - это проблема обедающих философов, в которой за круглым столом с миской риса посередине сидит n + 1 философ (n ≥ 1). Между любыми двумя философами, сидящими рядом друг с другом, лежит палочка для еды, к которой они оба могут получить доступ. Поскольку стол круглый, палочек для еды столько, сколько философов. Чтобы есть из миски, философ должен приобрести обе палочки для еды, к которым у него есть доступ. Следовательно, если один философ ест, то два его соседа не могут есть одновременно. Жизнь философа довольно проста и состоит из размышлений и еды; чтобы выжить, философу нужно снова и снова думать и есть. Задача состоит в том, чтобы разработать протокол, позволяющий выжить всем философам.

Стохастические игры уже используются в решениях DRL, связанных с многопользовательскими играми. Во многих многопользовательских средах командам агентов ИИ необходимо оценить, как сотрудничать и соревноваться друг с другом, чтобы максимизировать положительные результаты. Это часто называют дилеммой разведки и эксплуатации. Встраивание стохастической игровой динамики в агентов DRL - это эффективный способ сбалансировать возможности агентов DRL по исследованию и эксплуатации. Работа DeepMind над Quake III включает в себя некоторые из этих стохастических игровых концепций.

Эволюционные игры

Эволюционная теория игр (EGT) черпает вдохновение из дарвиновской теории эволюции. Истоки EGT можно проследить до 1973 года, когда Джон Мейнард Смит и Джордж Р. Прайс формализовали соревнования, проанализированные как стратегии, и математические критерии, которые можно использовать для прогнозирования результатов конкурирующих стратегий. Концептуально EGT - это применение концепций теории игр к ситуациям, в которых совокупность агентов с различными стратегиями взаимодействует с течением времени для создания стабильного решения посредством эволюционного процесса отбора и дублирования. Основная идея EGT заключается в том, что многие модели поведения включают взаимодействие нескольких агентов в популяции, и успех любого из этих агентов зависит от того, как его стратегия взаимодействует со стратегиями других. В то время как классическая теория игр была сосредоточена на статических стратегиях, то есть на стратегиях, которые не меняются с течением времени, эволюционная теория игр отличается от классической теории игр тем, что сосредотачивается на том, как стратегии развиваются с течением времени и какие динамические стратегии наиболее успешны. это эволюционный процесс.

Классическим примером EGT является игра «Ястреб-голубь», моделирующая состязание между ястребом и голубем за совместно используемый ресурс. В игре каждый участник следует одной из двух стратегий, описанных ниже:

· Ястреб: Инициируйте агрессивное поведение, не останавливаясь, пока не получите травму или пока противник не отступит.

· Голубь: немедленно отступите, если противник начнет агрессивное поведение.

Если мы предположим, что (1) каждый раз, когда два человека начинают агрессивное поведение, в конечном итоге возникает конфликт, и оба человека с равной вероятностью получают травмы, (2) цена конфликта снижает индивидуальную приспособленность на некоторую постоянную величину C , (3) когда Ястреб встречает Голубя, Голубь немедленно отступает, и Ястреб получает ресурс, и (4) когда два Голубя встречаются, ресурс делится поровну между ними, выигрыш в пригодности для игры Ястреб-Голубь может резюмировать в соответствии со следующей матрицей:

EGT, похоже, был разработан с учетом среды DRL. В многоагентных средах DRL агенты регулярно изменяют свою стратегию, взаимодействуя друг с другом. EGT - эффективный способ моделирования этих взаимодействий. Недавно OpenAI показал некоторых из этих динамических агентов, обучающих игре в прятки.