IBM создала самообучающийся агент, который превзошел один из самых важных тестов в этой области.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 125 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Появление таких тенденций, как самоуправляемые автомобили или дроны, помогло популяризировать область исследований искусственного интеллекта (ИИ), известную как автономные агенты. Концептуально автономные агенты — это ИИ, который накапливает знания в режиме реального времени на основе характеристик окружающей их среды, а также характеристик других агентов. Если мы используем пример беспилотных транспортных средств, то автономным агентам необходимо быстро адаптироваться к информации, обрабатываемой лидарными датчиками автомобиля, чтобы избежать столкновений и совершить безопасное вождение. Растущее значение автономных агентов привлекло внимание крупных корпоративных лабораторий искусственного интеллекта и исследовательских институтов. Одна из самых известных статей в этой области поступила от команды из исследовательской лаборатории IBM AI Research Lab в Токио, которая опубликовала статью, предлагающую метод поиска по дереву, основанный на пессимистичных сценариях, который улучшает реализацию автономных агентов. Предложенный метод пошел на завоевание первого и третьего мест в X-играх автономных агентов: Pommerman Challenge.

Что делает внедрение автономных агентов таким сложным, так это не только самообучающийся характер процесса накопления знаний в режиме реального времени, но и тот факт, что эти агенты работают в мультиагентной, частично наблюдаемой среде. В сценарии с автономным агентом модель ИИ должна не только обрабатывать информацию об окружающей среде в режиме реального времени, но и взаимодействовать с другими автономными агентами и учиться на их поведении. Кроме того, вся информация о среде неизвестна заранее, что требует от агентов использования методов памяти для создания добавочного представления среды. Опять же, подумайте о беспилотном автомобиле, который движется (в режиме реального времени) по дороге, по которой он никогда раньше не ездил (частично наблюдаемо), во время пробки (мультиагент).

Вызов Поммермана

Автономных агентов ИИ не только невероятно сложно создать, но и дорого их тестировать. Мы не можем каждый день тестировать новые модели беспилотных автомобилей или дронов. Чтобы упростить тестирование и проверку автономных систем ИИ и продвинуть исследования в космосе, сообщество ИИ создало Вызов Поммермана, многоагентную площадку для тестирования новых автономных систем ИИ.

В Pommerman команда из двух агентов соревнуется с другой командой из двух агентов на доске размером 11 x 11 ячеек. Каждый агент может наблюдать только за ограниченной областью доски, и агенты не могут общаться друг с другом. Цель команды — сбить с ног всех противников. Для этой цели агенты размещают бомбы, чтобы разрушать деревянные стены и собирать предметы усиления, которые могут появиться из этих деревянных стен, избегая при этом огня и атакуя противников.

Принятие решений в режиме реального времени — одна из характеристик, которые делают Поммермана таким трудным. В типичной игре агент должен принять решение примерно за 100 миллисекунд, что ограничивает применимость дорогостоящих вычислительных методов, таких как поиск по дереву Монте-Карло. В алгоритме Поммермана коэффициент ветвления на каждом шаге может достигать 64 = 1296, поскольку на каждом шаге одновременно действуют четыре агента, и для каждого агента существует шесть возможных действий. Агенты должны заранее планировать и выбирать действия с учетом взрыва бомб, время жизни которых составляет 10 шагов. Этот фактор обычно приводит к сложным методам поиска деревьев, поскольку те, у которых меньше уровней глубины, будут игнорировать взрывы бомб, в то время как те, у которых достаточная глубина, могут оказаться нежизнеспособными, учитывая большой коэффициент ветвления.

В то время как сообщество ИИ неуклонно добивается прогресса в Pommerman Challenge, результаты остаются намного ниже других игр, таких как Atari, Go или даже Poker. Ключом к успешному автономному агенту в Pommerman Challenge является предсказание критических событий далеко вперед в будущем. Чтобы решить эту проблему, IBM решила положиться на сочетание поиска по дереву в реальном времени с детерминированной оценкой среды.

Поиск дерева в реальном времени с пессимистичными сценариями

Как обсуждалось в предыдущем разделе, Pommerman не был бы таким сложным сценарием для автономных агентов, если бы не его ограничения в реальном времени. Такие методы, как поиск по дереву Монте-Карло (MCTS), идеально подходят для решения задачи Поммермана, за исключением того, что поиск решения обычно занимает много времени. Однако во многих сценариях методы типа MCTS по-прежнему являются жизнеспособным решением. Рассмотрим ситуацию, в которой агент может выжить, только следуя определенному маршруту. MCTS, вероятно, превзойдет альтернативы, учитывая меньший объем поиска.

В то время как предыдущий пример учит нас тому, что потенциальное решение задачи Поммермана может использовать традиционные методы поиска до определенного уровня, а затем комбинировать их со сценариями логического вывода. Именно такого подхода придерживается команда IBM. В своем стремлении решить задачу Поммермана IBM использовала метод, который выполняет поиск по дереву только с ограниченной глубиной, но листья дерева поиска оцениваются на основе детерминированного и пессимистического сценария. Новый подход сохраняет размер дерева поиска небольшим, поскольку ветви есть только до ограниченной глубины. В то же время новый подход может учитывать критические события, которые могут произойти в далеком будущем, поскольку листья оцениваются по детерминированному сценарию, который может быть намного длиннее, чем это было бы возможно с ответвлениями.

Идея полагаться на пессимистические сценарии основана на том факте, что хорошие действия часто оказываются эффективными при пессимистичных сценариях, особенно в тех случаях, когда безопасность является первостепенной задачей. Одним из ключевых аспектов стратегии поиска по дереву IBM является создание и оценка пессимистического сценария. Процесс генерации происходит для каждого из листьев в дереве поиска. Модель IBM предполагает, что состояние среды может быть представлено положениями объектов. Некоторые из этих объектов меняют свое положение случайным образом или в зависимости от действий агентов, что вынуждает поиск по дереву иметь ответвления. Если среди всех возможных вариантов можно назвать наихудшую последовательность положений объекта, то можно соответствующим образом размещать и перемещать этот объект в пессимистическом сценарии.

После создания различных пессимистичных сценариев агент IBM оценивает их, используя оценку, которая количественно определяет живучесть агента, которая является показателем количества позиций, в которых агент может безопасно оставаться в последовательности доски. Интуитивно считается, что агент обладает высокой выживаемостью, если существует много позиций, которых агент может достичь, не контактируя с другими агентами. В этом смысле автономный агент IBM выбирает действия, максимально повышающие уровень его живучести.

IBM сравнила новую модель с самыми современными агентами, и результаты были замечательными. Во-первых, новые агенты заняли первое и третье места в конкурсе Поммермана на Тридцать второй конференции по системам обработки нейронной информации (NeurIPS 2018) в Монреале. Одним из наиболее впечатляющих открытий стало то, как эффективность игры агента повышается пропорционально уровню пессимизма, что показано на следующем рисунке.

Автономные агенты станут одним из следующих рубежей в эволюции ИИ. Работа, которую проводят такие компании, как IBM, для развития этого пространства, может перевести область автономных агентов из очень специализированных приложений в беспилотных автомобилях или дронах в более массовые сценарии.