Публикации по теме game-theory

Публикации по теме 'game-theory'

Выигрыш в блэкджеке с помощью обучения с подкреплением

В этой статье мы рассмотрим использование трех методов обучения с подкреплением (RL) — Q-Learning, Value Iteration (VI) и Policy Iteration (PI) — для поиска оптимальной политики для популярной карточной игры Блэкджек . Существует сопровождающий репозиторий GitHub , который содержит весь код, использованный в этой статье. Политика — это сопоставление всех состояний в игре с действиями, которые должны быть предприняты в этом состоянии. Q-Learning позволяет изучать политику без определения..

Зачем нужен игрок в игры

Сравнение Player of Games (PoG) и AlphaZero Привет всем, сегодня мы будем сравнивать Player of Games (PoG) с AlphaZero . PoG — это новый агент искусственного интеллекта, разработанный DeepMind, и он первый в своем роде, достигший высокого уровня производительности как в идеальных, так и в несовершенных информационных играх. В совершенных информационных играх каждый игрок знает всю информацию в игре. Для шахмат и го знание всей информации в игре означает, что игроки могут видеть..

Теоретико-игровой подход к состязательному машинному обучению

Теоретико-игровой подход к состязательному машинному обучению Как использовать теорию игр для снижения рисков соперничества? В последние годы искусственный интеллект добился большого успеха, поскольку он предоставил нам мощные алгоритмы, которые используют большую базу данных для точных прогнозов или классификаций. Их все чаще используют для разных целей, в том числе с высокими ставками. И все же они небезупречны . Фактически, большинство этих алгоритмов обучаются на данных,..

ШАП в Python

Интерпретация модели машинного обучения является давней проблемой. За последние несколько лет было предложено много методов для использования альтернативных подходов к проблеме интерпретации. Недавно я наткнулся на статью , в которой используется SHAP (или значения Шепли), впервые представленный в 2017 году в этой статье . SHAP или Shapley Additive ExPlanations — это метод объяснения результатов запуска модели машинного обучения с использованием теории игр. Основная идея, лежащая в..

Элементы теории стоимости Шепли

Мы обсудим основы Ценностей Шепли (SV). SV берут свое начало в теории игр (GT) и были названы в честь их изобретателя, лауреата Нобелевской премии Ллойда С. Шепли (см. краткий биографический очерк в конце). В этой заметке мы сосредоточимся на самых основных аспектах — как определяются и рассчитываются SV. В следующей заметке мы рассмотрим базовый вариант использования в машинном обучении. Мы начнем с простого примера. Простой пример (Как разделить совместную прибыль в фирме):..

Темная сторона жадности

Как сбалансировать краткосрочные и долгосрочные цели Предположим, вы играете в игру со своим другом. Вам дается список номеров, и вы можете выбрать из начала или конца списка. Ваша цель состоит в том, чтобы максимизировать свою производительность. После того, как вы выберете, наступает очередь вашего друга выбрать номер из начала или из конца списка. Каждый игрок может выбирать только из начала или из конца списка. Игра проходит следующим образом: Первый игрок выбирает число из..

Рождественский проект по программированию

Я всегда хотел написать движок для шахмат, но никак не решался. Интересно, так ли это безумие? Своего рода отвлечение Вы можете подумать, что пока разработчик программного обеспечения находится на рождественских каникулах, последнее, что он может захотеть, это сидеть перед компьютером и возиться с кодом — и вы ошибаетесь. Я думаю, что я, вероятно, говорю от имени большинства разработчиков программного обеспечения, говоря, что мы не начинаем свой путь так, как другие могли бы в..