Pluribus: победа ИИ в техасском холдеме

Мир покера произвел революцию после появления Pluribus, бота на базе искусственного интеллекта, разработанного группой ученых из Университета Карнеги-Меллона и Facebook. Pluribus был запрограммирован на то, чтобы стать мастером игры в техасский холдем, способным выстоять против некоторых из лучших профессиональных игроков в покер в мире.

Сложность покера

Покер — чрезвычайно сложная игра, требующая глубокого понимания теории игр и вероятности. Поэтому перед ИИ стоит сложная задача, поскольку неправильное решение может стоить игроку больших денег и даже игры.

Равновесие по Нэшу

В играх с двумя игроками и играх с нулевой суммой для двух команд использование точной стратегии равновесия Нэша является верным способом гарантировать победу, поскольку делает невозможным проигрыш независимо от того, что делает противник. Однако вычисление равновесия Нэша в игре с тремя или более игроками, как правило, невозможно, и даже если точно соблюдать равновесие Нэша, все еще можно проиграть игру.

Алгоритмы Pluribus не обязательно гарантируют сходимость к равновесию Нэша в играх с более чем двумя игроками, но Pluribus освоил стратегию, которая постоянно позволяет ему выигрывать у элитных покерных профессионалов в покере с шестью игроками. Это пример того, как Pluribus может создавать сверхчеловеческие стратегии даже в условиях, выходящих за рамки игр с нулевой суммой для двух игроков.

Скрытая информация

Покер — это игра мастерства и стратегии, в которой игроки должны использовать свое знание скрытой информации для принятия обоснованных решений. Чтобы преуспеть в качестве покерного ИИ, нужно учитывать информацию, доступную ИИ и оппонентам, и выбирать наилучший план действий для каждой ситуации. Он должен быть достаточно непредсказуемым, чтобы сбивать с толку своих противников, но и достаточно предсказуемым, чтобы выбирать лучшие ходы, когда это необходимо.

Успешный покерный ИИ должен найти идеальный баланс между блефом и ставкой с сильными руками. Он должен быть в состоянии определить, когда блефовать, а когда взять сильную руку, и то, и другое является ключом к достижению успеха в игре в покер.

Стратегия плюрибуса

Pluribus произвел революцию в алгоритмах онлайн-поиска, благодаря возможности принимать решения за долю времени, оценивая всего на несколько ходов вперед, а не переходя сразу к концу игры. Он также использовал новые, более быстрые алгоритмы самостоятельной игры для игр со скрытой информацией, что позволяет обучать ИИ с чрезвычайно ограниченной вычислительной мощностью и памятью, что стоит всего 150 долларов в облачных вычислениях. Этот значительный прогресс позволил Pluribus превзойти высококвалифицированных профессиональных игроков в многопользовательском покере.

ИИ основан на алгоритме, который использует комбинацию самостоятельной игры и обучения с подкреплением для обучения игре. С каждой игрой Pluribus учится на своих ошибках и укрепляет свою стратегию, что позволяет ей становиться все более мощной. Pluribus может разыгрывать тысячи рук в час, что делает его более чем способным обыграть даже самых опытных людей.

Pluribus использует дальновидный подход к разработке стратегии. Он рассматривает все возможные руки, которые он может разыграть, и использует эту информацию для построения сбалансированного плана действий. Эта стратегия предназначена для уменьшения любой предсказуемости, которую может использовать противник. После расчета оптимального результата для каждой руки Pluribus может с уверенностью выбрать лучший ход для своей реальной руки. Это позволяет Pluribus обыгрывать своих противников и последовательно обеспечивать победу.

Одним из самых больших преимуществ Pluribus является его способность принимать оптимальные решения при наличии неполной информации. Например, в любой игре в покер вы никогда не можете быть уверены, какие карты на руках у ваших противников. Однако Pluribus может принимать решения на основе доступной информации, принимая во внимание вероятность различных исходов.

Будущее

В нашем проекте Nova AI мы используем теорию игр, потому что она позволяет лучше понять поведение людей и на основе этого выстроить новый уровень общения и взаимодействия с человеком.

Успех Pluribus открыл новые захватывающие возможности для ИИ в мире покера. В настоящее время Pluribus используется, чтобы помочь людям стать лучшими игроками, анализируя их ходы и предлагая стратегии. Его также можно будет использовать в будущем, чтобы бросить вызов профессиональным игрокам и обеспечить равные условия игры.

Pluribus также использовался для разработки новых стратегий игры в покер, которые еще предстоит открыть людям. Эти стратегии потенциально могут произвести революцию в игре и облегчить ее обучение новичкам.

Подпишитесь на нас в Twitter:Twitter