1. Обзор показателей для измерения стабильности, надежности и устойчивости обучения с подкреплением (arXiv)

Автор:Лаура Л. Пуллум

Аннотация:Обучение с подкреплением в последние годы вызвало значительный интерес, в первую очередь из-за успехов глубокого обучения с подкреплением в решении многих сложных задач, таких как игра в шахматы, го и компьютерные онлайн-игры. Однако в связи с растущим вниманием к обучению с подкреплением приложения, не относящиеся к игровым и смоделированным средам, требуют понимания надежности, стабильности и устойчивости методов обучения с подкреплением. С этой целью мы провели всесторонний обзор литературы, чтобы охарактеризовать доступную литературу по этим трем типам поведения, поскольку они относятся к обучению с подкреплением. Мы классифицируем количественные и теоретические подходы, используемые для обозначения или измерения устойчивости, стабильности и устойчивости поведения. Кроме того, мы определили действие или событие, для которых количественные подходы пытались сделать стабильными, надежными или устойчивыми. Наконец, мы предоставляем дерево решений, полезное для выбора метрик для количественной оценки поведения. Мы считаем, что это первый всеобъемлющий обзор стабильности, надежности и устойчивости, специально предназначенный для обучения с подкреплением.

2. Alpha-Mini: агент Minichess с глубоким обучением с подкреплением (arXiv)

Автор:Майкл Сан, Роберт Тан

Выдержка: мы обучаем агента соревноваться в мини-шахматах Гарднера, уменьшенной версии шахмат, в которую играют на доске 5x5. Мы мотивировали и применили метод SOTA «актер-критик» «Проксимальная оптимизация политики с обобщенной оценкой преимуществ». Наша первоначальная задача заключалась в обучении агента против случайного агента. Как только мы получили приемлемую производительность, мы приняли версию итеративного улучшения политики, принятую AlphaGo, чтобы сравнить агента со все более сильными версиями самого себя и оценить полученный прирост производительности. Конечный агент достигает почти идеального коэффициента выигрыша (0,97) против случайного агента. Мы также изучаем эффекты предварительной подготовки сети с использованием набора позиций, полученных в ходе самостоятельных игр.

3. Обучение решению дилемм союзов в играх с нулевой суммой для многих игроков (arXiv)

Автор: Эдвард Хьюз, Томас В. Энтони, Том Экклз, Джоэл З. Лейбо, Дэвид Бальдуцци, Йорам Бахрах.

Аннотация . Игры с нулевой суммой долгое время служили ориентиром для исследований в области искусственного интеллекта, поскольку они обладают богатым стратегическим пространством лучших ответов и четкой оценочной метрикой. Более того, конкуренция является жизненно важным механизмом во многих реальных многоагентных системах, способных генерировать интеллектуальные инновации: дарвиновская эволюция, рыночная экономика и алгоритм AlphaZero, и это лишь некоторые из них. В играх с нулевой суммой для двух игроков задача обычно рассматривается как поиск стратегий равновесия Нэша, защищающих от эксплуатации независимо от противника. Хотя это охватывает тонкости шахмат или го, оно избегает понятия сотрудничества с другими игроками, отличительного признака основных переходов, ведущих от одноклеточных организмов к человеческой цивилизации. За пределами двух игроков формирование альянса часто дает преимущество; однако для этого требуется доверие, а именно обещание взаимного сотрудничества перед лицом стимулов к отступничеству. Таким образом, успешная игра требует адаптации к другим игрокам, а не стремления к неэксплуатируемости. Здесь мы утверждаем, что систематическое изучение игр с нулевой суммой для многих игроков является важнейшим элементом исследования искусственного интеллекта. Используя симметричные матричные игры с нулевой суммой, мы формально демонстрируем, что формирование союзов можно рассматривать как социальную дилемму, и эмпирически, что наивное многоагентное обучение с подкреплением, следовательно, не может формировать союзы. Мы представляем игрушечную модель экономической конкуренции и показываем, как обучение с подкреплением может быть дополнено механизмом одноранговых контрактов для обнаружения и обеспечения союзов. Наконец, мы обобщаем нашу модель агента, чтобы включить временные контракты, открывающие возможности для дальнейшей работы.

4. Согласование сверхчеловеческого ИИ с человеческим поведением: шахматы как модельная система (arXiv)

Автор: Рейд Макилрой-Янг, Сиддхартха Сен, Джон Клейнберг, Эштон Андерсон

Аннотация : по мере того, как искусственный интеллект становится все более интеллектуальным — в некоторых случаях достигая сверхчеловеческой производительности — у людей растет потенциал учиться у алгоритмов и сотрудничать с ними. Однако способы, которыми системы ИИ подходят к проблемам, часто отличаются от того, как это делают люди, и поэтому могут быть непонятными и трудными для изучения. Важнейшим шагом в преодолении этого разрыва между человеческим и искусственным интеллектом является моделирование отдельных действий, составляющих человеческое поведение, а не просто сопоставление совокупной человеческой деятельности. Мы преследуем эту цель в модельной системе с долгой историей искусственного интеллекта: шахматах. Совокупная производительность шахматиста раскрывается по мере того, как он принимает решения в ходе игры. Сотни миллионов онлайн-игр, в которые играют игроки любого уровня квалификации, представляют собой богатый источник данных, в котором эти решения и их точный контекст записываются в мельчайших деталях. Применяя к этим данным существующие шахматные движки, включая реализацию AlphaZero с открытым исходным кодом, мы обнаруживаем, что они плохо предсказывают ходы человека. Мы разрабатываем и представляем Maia, специализированную версию Alpha-Zero, обученную на человеческих шахматных играх, которая предсказывает ходы человека с гораздо большей точностью, чем существующие движки, и может достигать максимальной точности при прогнозировании решений, принимаемых игроками с определенным уровнем навыков в игре. настраиваемый способ. Для двойной задачи прогнозирования того, совершит ли человек большую ошибку при следующем шаге, мы разрабатываем глубокую нейронную сеть, которая значительно превосходит конкурентные базовые показатели. Взятые вместе, наши результаты показывают, что есть существенные перспективы в разработке систем искусственного интеллекта с учетом человеческого сотрудничества, сначала точно моделируя детализированное принятие решений человеком.

5. Изучение персонализированных моделей поведения человека в шахматах (arXiv)

Автор: Рейд Макилрой-Янг, Рассел Ван, Сиддхартха Сен, Джон Клейнберг, Эштон Андерсон.

Аннотация. Даже когда системы машинного обучения превосходят человеческие возможности в какой-либо области, существует множество причин, по которым системы ИИ, которые фиксируют человеческое поведение, были бы желательны: люди могут захотеть учиться у них, им может понадобиться сотрудничать с ними, или они могут ожидать, что они будут служить партнерами в расширенном взаимодействии. Мотивированная этой целью человекоподобных систем ИИ, проблема прогнозирования действий человека — в отличие от прогнозирования оптимальных действий — становится все более полезной задачей. Мы расширяем это направление работы, разрабатывая высокоточные персонализированные модели поведения человека в контексте шахмат. Шахматы — богатая область для изучения этих вопросов, поскольку они сочетают в себе ряд привлекательных особенностей: системы ИИ достигли сверхчеловеческой производительности, но все еще тесно взаимодействуют с людьми-шахматистами как в качестве противников, так и инструментов подготовки, и существует огромное количество записанных данных о отдельные игроки. Начиная с версии AlphaZero с открытым исходным кодом, обученной на группе игроков-людей, мы демонстрируем, что можем значительно улучшить предсказание действий конкретного игрока, применив серию точных настроек. Кроме того, мы можем точно выполнять стилометрию — предсказывать, кто совершил заданный набор действий, — указывая на то, что наши персонализированные модели отражают процесс принятия решений человеком на индивидуальном уровне.