Должны ли мы стремиться к координации действий человека и ИИ вместо противостояния человека и ИИ?
Первоначально опубликовано на веб-сайте Rebellion Research
Больше нет необходимости демонстрировать, как ИИ повлияет на будущее и все аспекты нашей жизни и отраслей. Однако для большинства людей ИИ характеризуется программами, которые должны противостоять нам из-за их возможного интеллектуального превосходства. Дело в том, что ИИ в основном используется (и будет) в качестве инструмента, помогающего принимать решения, а не как нечто, с чем нужно бороться.
Таким образом, взаимодействие человека с искусственным интеллектом и, в более общем плане, многоагентная координация будут в центре нашего взаимодействия с машинами в будущем.
Основная задача состоит в том, чтобы уметь интерпретировать действия и намерения других агентов в окружающей среде и находить оптимальную политику для принятия наилучших решений.
Главное отличие здесь в том, что раньше среду можно было считать почти статической, а теперь ее могут изменять другие интеллектуальные агенты.
Недавнее связанное исследование было сосредоточено вокруг факта максимально возможного обобщения политики агентов, чтобы избежать появления произвольных и бессмысленных условностей. Произвольное соглашение может быть таким же простым, как выбор конкретного действия, которое не имеет смысла для достижения цели. Во время обучения агент может создать корреляцию между действием и его вознаграждением, когда в действительности это действие не повлияло на вознаграждение.
Проблема с произвольными соглашениями заключается в том, что в паре с другими агентами первый агент будет полагаться на эти соглашения для достижения своей цели, что приведет к снижению производительности.
Чтобы достичь таких способностей и восприятия для интеллектуальных агентов, одной из работ, которая проложила путь для текущих исследований, является машинная теория разума. Первоначальная теория разума на самом деле применяется к людям и относится к нашей способности представлять и абстрагировать психические состояния других людей. Это включает в себя намерения, желания и убеждения.
Например, представьте, что вы едете на велосипеде. Если вы подходите к автобусной остановке и видите, что кто-то машет вам рукой, вы можете предположить, что позади вас едет автобус. Однако вы не видели автобус напрямую, вы просто интерпретировали действия другого человека. Это то, что мы хотим воспроизвести в наших искусственных агентах, и обучение с подкреплением обеспечивает наилучшую основу для этого.
Работа, проделанная над машинной теорией разума, позволила улучшить процесс принятия решений в сложных многоагентных задачах.
Также было показано, что метаобучение можно использовать для предоставления агенту возможности создавать гибкие и эффективные модели других.
В какой-то момент в будущем, с возрастающей сложностью агентов, мы могли бы представить, что ИИ будут ближе к способности эффективно координировать свои действия с людьми на основе этой теории.
Еще одним интересным аспектом этой работы является мотивация использовать эту теорию для изучения наших человеческих способностей и сделать агентов более понятными для людей и, следовательно, сделать наши модели и их процесс принятия решений прозрачными.
В этом отношении стремление к машинной теории разума заключается в построении недостающего интерфейса между машинами и человеческими ожиданиями.
Долгосрочная цель искусственного интеллекта часто определяется как способность решать сложные задачи реального мира. Кроме того, ряд компаний, таких как DeepMind, были сосредоточены на «решении
интеллект» в основном через игры и нерешенные научные задачи. Среди них мы можем упомянуть AlphaFold для сворачивания белков или недавний прорыв в ядерном синтезе.
Тем не менее, игры часто использовались в качестве эталонной метрики способностей ИИ с момента первого противостояния в нардах в 1992 году. Совсем недавно, в 2016 году, AlphaGo удалось победить чемпиона мира в го, используя глубокое обучение с подкреплением и поиск по дереву Монте-Карло. После этого те же методы использовались в других видеоиграх, таких как Minecraft или Starcraft. В отличие от классических настольных игр, современные видеоигры имитируют более сложную среду и открывают свободу для более сложного поведения игрока, создавая настоящую проблему для ИИ.
Одним из самых впечатляющих недавних событий было создание ИИ для Dota 2.
Правила Dota 2 сложны и подразумевают высокий уровень координации и стратегии для достижения высочайшего уровня — игра активно разрабатывается более десяти лет, а игровая логика реализована в сотнях тысяч строк кода.
Он не только смог победить настоящих чемпионов мира, но и создал новые стратегии, которые либо недооценивались, либо не учитывались профессиональными игроками. Это был вопиющий случай, когда ИИ обнаружил и помог людям улучшить свои игровые способности.
Одним из способов обучения и координации различных агентов является метод одиночной игры (SP). Идея состоит в том, чтобы обучить агента с его дубликатами и заставить всех агентов работать согласованно.
У этого метода есть существенный недостаток, заключающийся в том, что его нельзя изменить. В сочетании с другими агентами он работает плохо, потому что фокусируется на произвольных политиках, созданных с самим собой.
Чтобы избежать этого, современная литература сосредоточена на максимально возможном обобщении агентов и предотвращении создания агентами каких-либо произвольных соглашений.
Одна из первых попыток достичь координации Zero-Shot называется Other-Play (OP) Якоба Ферстера. Идея заключалась в том, чтобы обучить агента самому себе, как и в SP, однако используемая версия самого себя должна была пройти через симметричные преобразования, добавляющие больше разнообразия встречающимся сценариям и предотвращающие произвольные соглашения.
В этом примере каждый круг представляет собой рычаг. Это игра для двух игроков, у каждого игрока одинаковый набор рычагов, и цель состоит в том, чтобы выбрать тот же рычаг, что и другой игрок, не общаясь с ним. Если оба игрока выбирают один и тот же рычаг, они получают количество очков, указанное над рычагом. Так как все 1.0
рычаги одинаковы, было бы слишком рискованно для обоих игроков выбирать один и тот же рычаг 1.0. Оптимальной стратегией было бы выбрать 0,9, поскольку это не только максимизирует количество очков, но и отличается от другого, а также сводит к минимуму вероятность того, что оба игрока выберут другой рычаг и проиграют.
Обучение одиночной игре будет означать, что агент будет играть в эту игру с версией самого себя. Это будет означать, что в какой-то момент агент может найти произвольный рычаг на уровне 1,0, чтобы остаться на нем, поскольку он будет больше, чем предыдущие случайные выборы на уровне 1,0. С точки зрения Агента, платежные рычаги версии 1.0 не имеют меток и поэтому симметричны. Поскольку агенты не могут договориться о том, как нарушить симметрию, выбор одного из рычагов 1,0 приводит к ожидаемому доходу 0,11.
Метод Other Play решает эту проблему произвольного соглашения, интегрируя преобразование симметрии.
В этой задаче это будет означать, что агент будет тренироваться с преобразованными версиями самого себя и, следовательно, избегать создания произвольных соглашений. Например, если агент играет с преобразованной версией самого себя и обнаруживает, что выбор третьего рычага 1.0 является эффективной стратегией, в сочетании с недавно преобразованным агентом он будет работать плохо и попытается найти лучшую политику. Напротив, ОП предлагает выбор рычага 0,9.
Метод ОП оказался очень эффективным, особенно в испытании Ханаби. Проблема с OP заключается в том, что перед обучением агента необходимо знать симметрии, а когда дело доходит до задач большой размерности, найти все симметрии сложно и не всегда возможно.
Коммуникация агентов также является ключевой частью этой области, и работа уже реализована как в свободной коммуникации, так и в дорогостоящей коммуникации между агентами.
Эти элементы также играют важную роль в исследованиях ИИ, поскольку агентам необходимо будет общаться, прежде чем начать координировать свои действия, чтобы искать сходства в дальнейшей работе.
Совсем недавно исследование предоставило более общую основу для достижения координации без меток (LFC), которая является обобщенной настройкой для ZSC. Им удалось выразить OP в этой структуре и даже изучить новое потенциальное решение, основанное на разрыве связей с оптимальными политиками. Основная мотивация этой статьи по-прежнему заключается в том, чтобы найти способы предотвратить произвольные соглашения.
Понимание того, как работает многоагентная координация, может иметь решающее значение в будущем, поскольку большая часть нашей системы будет построена вокруг этой идеи. Мы вполне можем представить, как некоторые ИИ анализируют наши результаты в спорте или видеоигре и могут помочь нам оптимальным образом прогрессировать. Несмотря на то, что невзгоды играют важную роль в исследованиях ИИ, нельзя забывать о координации, поскольку она может стать ключом к полностью объяснимому ИИ и прозрачности алгоритмов.