ИИ развлекается: развивает уместные для человека навыки игры в прятки

На то, что человечеству потребовались миллионы лет эволюции, потребовалось всего несколько дней для мультиагентов ИИ

Хорошо быть ИИ. Люди создают для вас особые миры - красочные игровые площадки, где вы играете миллионы и миллионы игровых раундов, изучаете новые вещи, воссоздаете некоторые простые человеческие навыки, которые мы развили только с помощью жестокого естественного отбора.

В своей новой статье OpenAI раскрывает некоторые удивительные результаты многоагентной динамики, которые включают развитие интеллектуального поведения.

Синие и красные фигурки из мультфильмов играли в прятки и смогли разработать серию из шести различных стратегий и контрстратегий. Удивительно то, что создатели игры не знали, что некоторые из этих стратегий даже поддерживаются их средой.

Истинный интеллект?

Еще нет, но обещание велико. Исследователи OpenAI показали, что конкуренция между несколькими агентами, поддерживаемая стандартным обучением с подкреплением, может привести к сложному поведению, которое потенциально может повысить изощренность.

Соревнование между несколькими агентами - это один из методов обучения навыкам в неконтролируемой среде. Обучение с подкреплением - одна из трех основных парадигм машинного обучения, наряду с обучением с учителем и обучением без учителя. Этот алгоритм был вдохновлен тем, как учатся настоящие животные на реальной Земле. По сути, это система вознаграждения, которая максимизирует эффект от действий.

Спрятанная среда и правила

Красным искателям было поручено держать синих укрытий в поле зрения; а прятавшимся, в свою очередь, следовало избегать попадания в поле зрения ищущих. Hiders могли прятаться за неподвижными стенами, подвижными баррикадами, ящиками и пандусами, которые были случайным образом разбросаны по разным случайно сгенерированным комнатам. Фигуры могли заблокировать предметы, чтобы другая сторона не могла их использовать. На этапе подготовки искатели были обездвижены, чтобы дать им возможность убежать, спрятаться и / или изменить окружающую среду.

Команде прятников была дана +1 в качестве награды, если все прячущиеся скрыты, и -1 в качестве штрафа, если ищущий увидит любого укрывателя. Для ищущих все наоборот. Нет стимула иметь дело с предметами или учиться ориентироваться. Нулевое вознаграждение на этапе подготовки. Индивидуальных наград тоже не было.

Спустя 481 миллион игр…

Было несколько этапов разработки.

Погоня (эпизоды 0–22 миллиона)

В течение первых нескольких миллионов раундов игроки перемещались случайным образом. Искатели учились преследовать, а прятавшиеся - избегать их. На данный момент никаких манипуляций с объектами.

Строительство укрытия (серии 22–88 млн)

После более чем 20 миллионов преследований и прятаний игра стала немного сложнее. Синие укрыватели начали не только перемещать ящики и стены, чтобы укрыться, но и запирать их, чтобы их коллеги не могли их достать. Они также научились координировать и блокировать входы самым быстрым способом.

Ramp use (эпизоды 88–115 миллионов)

Ближе к 100 миллионам раундов соискатели придумали контрстратегию. Они использовали пандусы, чтобы перелезть через стены и запертые ящики.

Ramp Defense (эпизоды 115–388 миллионов)

115-миллионный раунд. Спрятавшиеся научились фиксировать пандусы на этапе подготовки, чтобы искатели не могли ими воспользоваться.

Бокс-серфинг (388–458 миллионов серий)

Совершенно неожиданно искатели усвоили следующую контр-стратегию: они запрыгнули на ящик и поплыли в убежище со спрятанными синими фигурами, из ящиков красные искатели преодолели препятствия.

Surf Defense (серии 458–481 миллион)

В конце концов, прятщики научились запирать ящики на этапе подготовки, чтобы избежать серфинга.

Заключение

Исследователи выяснили, что методы внутренней мотивации не так эффективны, как многоагентная конкуренция, поскольку они способствуют обучению. В растущей и более изощренной среде конкуренция между несколькими агентами, а не внутренняя мотивация - это то, что обещало бесконтрольно генерировать релевантные для человека навыки.

Еще меня восхищает сложность строительной среды. Сложность заключается в том, что когда мы, люди, создаем среду или физический движок, мы не можем предвидеть, как они будут использоваться и какие возможности могут быть там скрыты для мотивированного агента.

Как агенты понимают нас и что может быть последствием ограниченного человеческого разума - тема моей следующей статьи.