Чему могут научиться агенты, играя самостоятельно?

Если вы хотите приготовить яблочный пирог с нуля, вы должны сначала изобрести вселенную
- Карл Саган

[Эпистемический статус: попытка придать идеям более четкую форму]

В последние месяцы искусственные системы DeepMind одержали ошеломляющие победы над игроками-людьми в сложных стратегических играх: сначала го, а затем, сразу же после этого, в шахматах и сёги. Их новое великое оружие? Повторяющаяся игра с самим собой, когда алгоритм собирает наблюдения, чтобы учиться, играя против самого себя. Предыдущие подходы (включая исходную Alpha Go) обучили агента моделировать стратегическое поведение человека напрямую, обучаясь на умениях экспертов; парадигма самостоятельной игры более элегантна, позволяя стратегическому пониманию выпасть из взаимодействия с другим стратегическим игроком.

Это изящный символизм, игра с самим собой; вы ваш величайший враг, вы ваш величайший учитель. На каком-то уровне это глупость: человеческая история, привитая механистическому процессу. Но истории и люди хорошо себя зарекомендовали.

Большое преимущество самостоятельной игры состоит в том, что вам не нужен непосредственный надзор; вся информация, которую агент использует для обучения, исходит от другого агента (его клона), действующего для максимизации своих целей. Подразумеваемая выгода в рамках этого более анодного, технического утверждения - это обещание функционально неограниченных данных - ограниченных только нашими вычислениями - на которых машины могут взлететь вверх и достичь потенциального превосходства. Причина, по которой AlphaZero может так быстро достичь стратегической компетентности, заключается в том, что, учитывая фиксированные правила игры, агрессивно параллельный алгоритм может моделировать игровые эпизоды намного быстрее, чем настоящий человек, изучающий игру.

Самостоятельная игра дразнит, потому что она не ограничивается данными, собранными людьми, или даже текущими пределами человеческих знаний, а просто оптимизацией правил игры.

Но что это за правила?

Чтобы ответить на этот вопрос, я думаю, что стоит четко подумать о предпосылках, позволяющих играть самостоятельно.

Что особенно важно, вам нужен способ определить, кто победит в данной схватке. Это необходимо, когда вы стимулируете агента, подталкивая его к изучению действий и состояний, которые повышают вероятность победы. Даже если вы не жестко кодируете данные, на которых учится алгоритм, вы жестко кодируете стратегические ограничения, которые пытаетесь оптимизировать. Когда стратегические ограничения возникают из-за поведения другого игрока, их можно описать еще проще: как правила для оценки конечного состояния игры. Каждый алгоритм стремится достичь стандарта, основанного на установленных вами правилах, и их наказывают или вознаграждают в зависимости от того, насколько хорошо они соответствуют вашему желаемому поведению. В случае игр эти правила просты, поскольку игра представляет собой фиксированную и ограниченную вселенную. Есть простые способы проверить, выиграли ли вы; это объективно по замыслу.

Это необходимо, потому что в мире самостоятельной игры для игр вселенная, налагающая на агента стратегические ограничения, полностью создается поведением единственного другого агента. Но мне кажется, что набор проблем, стратегическая зависимость которых заключается исключительно в том, что агент пытается победить с помощью простых правил, ограничен. Большинство стратегических ограничений, с которыми люди сталкиваются во Вселенной, исходят не от других людей, а от динамики естественного мира.

Когда мы думаем об ОИИ, мы думаем об агенте с широкой стратегической компетенцией, который также имеет доступ к информации об окружающем мире.
Какие виды окружающей среды мы можем вообразить и какие виды усвоенного поведения могут они породить. , что может привести к такой широкой стратегической компетенции?

Давайте подумаем, что бы произошло, если бы у нас была среда, основанная на поддержании собственной жизни. Каким будет данный раунд? Разве мы поместим агента в среду и дадим ему очень широкий приказ: «быть в конце и произвести наибольшее количество потомков»? Будут ли дополнительные агенты на разных уровнях? Смогут ли они создавать союзы и передавать информацию? Будут ли случайные события, с которыми вам придется бороться? Будем ли мы ждать развития языка или заранее создавать язык как возможность? Как среда побудит агента строить долгосрочные планы, узнавать о мире до того, как ему понадобится эта информация, заключать союзы? В какой-то момент сценарий начинает походить на простую игру, в которой данные создаются для нас действиями агентов, и больше на сложную среду, в которой мы принимаем множество априорных значений в отношении типов сред, в которых разумные существа приобретают стратегические преимущества. подходы к миру.

Я здесь слишком много подбираю по образцу? Слишком явное воровство из той схемы, которую уже использует эволюция? Возможно. Возможно, нам не следует рассматривать эволюционную среду как единственный путь, по которому может развиваться широко стратегическое существо. Но я не знаю, что я слышал убедительные аргументы о том, как эта смоделированная среда действительно выглядит, от людей, которые утверждают, что неизбежное появление AGI основано на существовании Alpha Zero.

Рискуя сделать небольшое отступление, я думаю, что широкие рамки эволюции человека заслуживают большего внимания в мире машинного обучения. Один самородок, который я принес с NIPS 2016 (к сожалению, я не обратил внимание на докладчика), заключался в том, что: возможно, нам следует думать не только о том, что человек узнает за свою жизнь, но и о том, что все человечество узнает за миллиарды жизней?

Когда я был ребенком, я научился говорить, но при жизни так и не понял, почему я должен говорить. Мне не приходилось сталкиваться с теми аспектами среды, которые делали речь адаптивной, наказывать за них, пробовать альтернативные стратегии и останавливаться на этом. Наказанием за экологические неудачи является смерть, и это не наказание, которое вы можете наложить на существо и заставить его продолжать учиться. Во многих смыслах я был больше похож на настраиваемую сеть, чем на полностью обучаемую: я был готов, как губка, впитать язык в пути, подготовленные для него долгими поколениями. Для меня это важное различие: научиться использовать инструмент, когда он существует, против разработки этого инструмента в первую очередь, после того, как столкнулся со стимулами, которые делают его необходимым.

Все это говорит о том, что если мы хотим обучить агента, побуждая его побеждать в игре, правильная ли метафора - это ребенок, созревающий во взрослую жизнь, или вид, эволюционирующий в выживание? Этот вопрос исходит из (возможно, слишком наивного) наблюдения, что маленькие дети не познают мир, пытаясь оптимизировать какую-то объективную функцию вознаграждения и наказания или, по крайней мере, не соревновательную. Во многих отношениях эволюция усвоила макроцелевые функции с критериями выживания, и каждый человек опирается на этот механизм, построенный на протяжении этих поколений, чтобы изучать подкомпонентные элементы этой цели: говорить, соединяться, наблюдать, используя набор априорных значений на уровне вида. узнал о мире.

Подводя итог: да, это правда, что самые конкретные текущие проблемы машинного обучения имеют алгоритмические нюансы: как мы моделируем системы лучше, быстрее и более практичными способами. Но моя высокомерная гипотеза такова: возможности агентов, которые мы разрабатываем, скоро будут определяться не сложностью моделей, которые мы можем разработать, а сложностью среды, в которой они растут и обучаются. И эти среды должны быть спроектированы, явно определены людьми, потому что для того, чтобы их можно было использовать на цифровых скоростях, они должны быть параметризованы и иметь программируемые правила.

Двумя большими преимуществами машинного интеллекта являются скорость, с которой он может повторять обучение, и потенциально обширный пул цифровых данных, которые он может использовать для принятия решений. Но если мы действительно хотим использовать это первое преимущество для создания стратегического агента, а не просто такого, который может выполнять задачи, которым его обучают люди, нам необходимо разработать сложные, динамические, многопользовательские среды, чтобы наши агенты могли выполнять итерацию в полностью смоделированная настройка. Потому что у человечества есть фору.

Чему могут научиться агенты, играя самостоятельно?

Вопросы по теме