Должны ли мы стремиться к координации действий человека и ИИ вместо противостояния человека и ИИ?

Первоначально опубликовано на веб-сайте Rebellion Research

Больше нет необходимости демонстрировать, как ИИ повлияет на будущее и все аспекты нашей жизни и отраслей. Однако для большинства людей ИИ характеризуется программами, которые должны противостоять нам из-за их возможного интеллектуального превосходства. Дело в том, что ИИ в основном используется (и будет) в качестве инструмента, помогающего принимать решения, а не как нечто, с чем нужно бороться.

Таким образом, взаимодействие человека с искусственным интеллектом и, в более общем плане, многоагентная координация будут в центре нашего взаимодействия с машинами в будущем.

Основная задача состоит в том, чтобы уметь интерпретировать действия и намерения других агентов в окружающей среде и находить оптимальную политику для принятия наилучших решений.

Главное отличие здесь в том, что раньше среду можно было считать почти статической, а теперь ее могут изменять другие интеллектуальные агенты.

Недавнее связанное исследование было сосредоточено вокруг факта максимально возможного обобщения политики агентов, чтобы избежать появления произвольных и бессмысленных условностей. Произвольное соглашение может быть таким же простым, как выбор конкретного действия, которое не имеет смысла для достижения цели. Во время обучения агент может создать корреляцию между действием и его вознаграждением, когда в действительности это действие не повлияло на вознаграждение.

Проблема с произвольными соглашениями заключается в том, что в паре с другими агентами первый агент будет полагаться на эти соглашения для достижения своей цели, что приведет к снижению производительности.

Чтобы достичь таких способностей и восприятия для интеллектуальных агентов, одной из работ, которая проложила путь для текущих исследований, является машинная теория разума. Первоначальная теория разума на самом деле применяется к людям и относится к нашей способности представлять и абстрагировать психические состояния других людей. Это включает в себя намерения, желания и убеждения.

Например, представьте, что вы едете на велосипеде. Если вы подходите к автобусной остановке и видите, что кто-то машет вам рукой, вы можете предположить, что позади вас едет автобус. Однако вы не видели автобус напрямую, вы просто интерпретировали действия другого человека. Это то, что мы хотим воспроизвести в наших искусственных агентах, и обучение с подкреплением обеспечивает наилучшую основу для этого.

Работа, проделанная над машинной теорией разума, позволила улучшить процесс принятия решений в сложных многоагентных задачах.

Также было показано, что метаобучение можно использовать для предоставления агенту возможности создавать гибкие и эффективные модели других.

В какой-то момент в будущем, с возрастающей сложностью агентов, мы могли бы представить, что ИИ будут ближе к способности эффективно координировать свои действия с людьми на основе этой теории.

Еще одним интересным аспектом этой работы является мотивация использовать эту теорию для изучения наших человеческих способностей и сделать агентов более понятными для людей и, следовательно, сделать наши модели и их процесс принятия решений прозрачными.

В этом отношении стремление к машинной теории разума заключается в построении недостающего интерфейса между машинами и человеческими ожиданиями.

Долгосрочная цель искусственного интеллекта часто определяется как способность решать сложные задачи реального мира. Кроме того, ряд компаний, таких как DeepMind, были сосредоточены на «решении

интеллект» в основном через игры и нерешенные научные задачи. Среди них мы можем упомянуть AlphaFold для сворачивания белков или недавний прорыв в ядерном синтезе.

Тем не менее, игры часто использовались в качестве эталонной метрики способностей ИИ с момента первого противостояния в нардах в 1992 году. Совсем недавно, в 2016 году, AlphaGo удалось победить чемпиона мира в го, используя глубокое обучение с подкреплением и поиск по дереву Монте-Карло. После этого те же методы использовались в других видеоиграх, таких как Minecraft или Starcraft. В отличие от классических настольных игр, современные видеоигры имитируют более сложную среду и открывают свободу для более сложного поведения игрока, создавая настоящую проблему для ИИ.

Одним из самых впечатляющих недавних событий было создание ИИ для Dota 2.

Правила Dota 2 сложны и подразумевают высокий уровень координации и стратегии для достижения высочайшего уровня — игра активно разрабатывается более десяти лет, а игровая логика реализована в сотнях тысяч строк кода.

Он не только смог победить настоящих чемпионов мира, но и создал новые стратегии, которые либо недооценивались, либо не учитывались профессиональными игроками. Это был вопиющий случай, когда ИИ обнаружил и помог людям улучшить свои игровые способности.

Одним из способов обучения и координации различных агентов является метод одиночной игры (SP). Идея состоит в том, чтобы обучить агента с его дубликатами и заставить всех агентов работать согласованно.

У этого метода есть существенный недостаток, заключающийся в том, что его нельзя изменить. В сочетании с другими агентами он работает плохо, потому что фокусируется на произвольных политиках, созданных с самим собой.

Чтобы избежать этого, современная литература сосредоточена на максимально возможном обобщении агентов и предотвращении создания агентами каких-либо произвольных соглашений.

Одна из первых попыток достичь координации Zero-Shot называется Other-Play (OP) Якоба Ферстера. Идея заключалась в том, чтобы обучить агента самому себе, как и в SP, однако используемая версия самого себя должна была пройти через симметричные преобразования, добавляющие больше разнообразия встречающимся сценариям и предотвращающие произвольные соглашения.

В этом примере каждый круг представляет собой рычаг. Это игра для двух игроков, у каждого игрока одинаковый набор рычагов, и цель состоит в том, чтобы выбрать тот же рычаг, что и другой игрок, не общаясь с ним. Если оба игрока выбирают один и тот же рычаг, они получают количество очков, указанное над рычагом. Так как все 1.0

рычаги одинаковы, было бы слишком рискованно для обоих игроков выбирать один и тот же рычаг 1.0. Оптимальной стратегией было бы выбрать 0,9, поскольку это не только максимизирует количество очков, но и отличается от другого, а также сводит к минимуму вероятность того, что оба игрока выберут другой рычаг и проиграют.

Обучение одиночной игре будет означать, что агент будет играть в эту игру с версией самого себя. Это будет означать, что в какой-то момент агент может найти произвольный рычаг на уровне 1,0, чтобы остаться на нем, поскольку он будет больше, чем предыдущие случайные выборы на уровне 1,0. С точки зрения Агента, платежные рычаги версии 1.0 не имеют меток и поэтому симметричны. Поскольку агенты не могут договориться о том, как нарушить симметрию, выбор одного из рычагов 1,0 приводит к ожидаемому доходу 0,11.

Метод Other Play решает эту проблему произвольного соглашения, интегрируя преобразование симметрии.

В этой задаче это будет означать, что агент будет тренироваться с преобразованными версиями самого себя и, следовательно, избегать создания произвольных соглашений. Например, если агент играет с преобразованной версией самого себя и обнаруживает, что выбор третьего рычага 1.0 является эффективной стратегией, в сочетании с недавно преобразованным агентом он будет работать плохо и попытается найти лучшую политику. Напротив, ОП предлагает выбор рычага 0,9.

Метод ОП оказался очень эффективным, особенно в испытании Ханаби. Проблема с OP заключается в том, что перед обучением агента необходимо знать симметрии, а когда дело доходит до задач большой размерности, найти все симметрии сложно и не всегда возможно.

Коммуникация агентов также является ключевой частью этой области, и работа уже реализована как в свободной коммуникации, так и в дорогостоящей коммуникации между агентами.

Эти элементы также играют важную роль в исследованиях ИИ, поскольку агентам необходимо будет общаться, прежде чем начать координировать свои действия, чтобы искать сходства в дальнейшей работе.

Совсем недавно исследование предоставило более общую основу для достижения координации без меток (LFC), которая является обобщенной настройкой для ZSC. Им удалось выразить OP в этой структуре и даже изучить новое потенциальное решение, основанное на разрыве связей с оптимальными политиками. Основная мотивация этой статьи по-прежнему заключается в том, чтобы найти способы предотвратить произвольные соглашения.

Понимание того, как работает многоагентная координация, может иметь решающее значение в будущем, поскольку большая часть нашей системы будет построена вокруг этой идеи. Мы вполне можем представить, как некоторые ИИ анализируют наши результаты в спорте или видеоигре и могут помочь нам оптимальным образом прогрессировать. Несмотря на то, что невзгоды играют важную роль в исследованиях ИИ, нельзя забывать о координации, поскольку она может стать ключом к полностью объяснимому ИИ и прозрачности алгоритмов.

Должны ли мы стремиться к координации между человеком и ИИ вместо противостояния человека и ИИ?

Автор Адам Рида