Многие виды человеческой деятельности требуют сотрудничества, включая футбол, лечение и исполнительское искусство. Высокоуровневая цель нашего исследования — разработать интеллектуальных автоматизированных агентов, которые могут выполнять эти задачи так же, как и люди. Эти задачи в целом можно сформулировать как задачи многоагентного обучения с подкреплением (MARL), которые включают последовательное принятие решений. В кооперативных условиях, когда агенты взаимодействуют, чтобы работать вместе как команда в среде, агенты получают локальные наблюдения и совместное командное вознаграждение на каждом временном шаге. Не зная лежащей в основе динамики среды, цель MARL состоит в том, чтобы изучить политику поведения для каждого агента путем проб и ошибок, чтобы кумулятивное командное вознаграждение было максимальным. Вдохновленная человеческим социальным обучением в различных видах деятельности, наша команда исследователей из IBM, Массачусетского технологического института и Северо-восточного университета изучила проблему того, как искусственные агенты (роботы) могут эффективно передавать свои знания и учиться у своих сверстников для решения задач, требующих сотрудничества.

MARL — это давняя область исследований в области ИИ, в которой есть много открытых проблем, включая обучение на частично наблюдаемых данных (из-за ограничений связи каждый агент должен учиться на основе своего собственного локального потока наблюдений), отсроченное присвоение кредита (агент выигрывает). ничему не научиться, пока не будет обеспечена обратная связь), и изменение поведения агентов (из-за того, что агенты взаимодействуют с окружающей средой, одновременно обучаясь). В дополнение к унаследованию этих проблем от MARL, проблема «научиться консультировать» имеет свои уникальные проблемы. Во-первых, агенты должны узнать, когда и чему учить. Во-вторых, каждый агент должен учиться самостоятельно, соблюдая ограничения, такие как конфиденциальность, которые запрещают делиться всем. В-третьих, агенты должны точно оценить влияние каждого совета на прогресс обучения товарищей по команде (вознаграждение учителя). Из-за этих трудностей и высокой вычислительной сложности проблема «научиться консультировать» для мультиагентной системы практически не исследована в литературе.

Проблема консультирования или «обучения» агентов для улучшения обучения исследовалась ранее, но эти методы ограничены настройками с одним агентом, когда учащийся выполняет действия, предложенные учителем, который обычно является экспертом и всегда советует оптимальное действие. Во многих реальных задачах маловероятно, что агенты могут напрямую обучать друг друга с совершенными знаниями. Тем не менее из-за распределенного характера многоагентных систем каждый агент может приобретать разные навыки и знания, что может быть полезно для ускорения процесса обучения в команде. С другой стороны, существующая работа по взаимному консультированию действий в MARL использует простые правила для обновления параметров, определяющих как политику ученика, так и политику учителя. Такой подход не может гарантировать достижение оптимальной политики.

Чтобы повысить эффективность всего процесса обучения, мы сформулировали задачу «обучения для обучения» как задачу MARL более высокого уровня. В частности, мы разработали алгоритм под названием LeCTR (Learning to Coordinate and Teach Reinforcement), с помощью которого агент учится брать на себя роль ученика, учителя или даже того и другого одновременно. Эти политики рекомендаций оптимизируются вместе с политиками задач путем чередования следующих двух шагов:

На первом этапе каждый агент играет роли как ученика, так и учителя, чтобы обмениваться советами друг с другом на протяжении нескольких этапов. В частности, мы рассматриваем двух агентов i и j, играющих вместе в кооперативную игру в качестве примера (рис. 1). На каждом временном шаге агент i (ученик) сначала проверяет свои знания в соответствии со своим локальным наблюдением за состоянием игры. Предполагая, что у агента i есть конечное число вариантов действий (например, влево/вправо/вверх/вниз при навигации по комнате), знания агента i кодируются функцией ценности, измеряющей ценность выполнения определенного действия на основе его наблюдения. Учитывая знания агента i и его наблюдение, его студенческая политика решает, просить ли агента j совета или нет. Если решение отрицательное, агент i следует своей собственной политике (выполняет действие с наибольшим значением или случайное действие). В противном случае агент i спрашивает совета у агента j. После получения запроса на совет агент j (учитель) сначала проверяет свои знания о ситуации агента i, и политика консультирования агента j решает, какой совет следует дать агенту i: либо действие из набора действий агента i, либо специальное отсутствие совета действие. После того, как агент i выполнит действие из своей собственной политики или предложенное агентом j, политика уровня задачи агента i будет обновлена. В то же время агент j также решает, следует ли спросить совета у агента i, следуя тому же протоколу. Процесс продолжается до тех пор, пока либо агенты не достигнут своих целей, либо не будет достигнут максимальный временной шаг. Мы повторяем этот процесс несколько раз и записываем данные обучения (решение учащегося и совет учителя, а также прогресс в обучении, измеряемый скоростью улучшения результатов).

На втором этапе применяется метод глубокого обучения с подкреплением для обновления политики консультирования (которая решает, когда давать советы и какие советы давать) с использованием обучающих данных, записанных на первом этапе.

LeCTR — это первый алгоритм обучения обучению в мультиагентных средах. Мы демонстрируем эффективность LeCTR на нескольких простых тестовых задачах и показываем, что LeCTR достигает более половины скорости обучения по сравнению с другими методами. Кроме того, мы также показываем, что LeCTR позволяет агентам обучать друг друга, даже если у этих агентов разные наборы действий, что потенциально полезно для координации между различными типами агентов, такими как воздушные и наземные транспортные средства в поисково-спасательных ситуациях. Наша будущая работа включает в себя применение LeCTR к более сложным областям, в которых задействовано больше агентов и многомерных пространств состояний, таких как футбольные кубки и видеоигры.

Эта работа была представлена ​​в документе под названием «Обучение преподаванию в совместном многоагентном обучении с подкреплением» (авторы: Шайеган Омидшафии, Донг-Ки Ким, Мяо Лю, Джеральд Тезауро, Мэтью Ример, Кристофер Амато, Мюррей Кэмпбелл, Джонатан П. Хоу), который получил почетное упоминание за лучшую студенческую работу на конференции AAAI по искусственному интеллекту 2019 года на Гавайях, 27 января — 1 февраля.