Эксперименты с играми - отличный способ лучше понять глубокое обучение. В последние годы AI стал лучшим игроком в ряде игр, таких как го, нарды и шахматы.

Однако известно, что все эти игры содержат точную информацию. Для каждого игрока ничего не скрыто; на самом деле никакое решение не сводится к эмоциональному наблюдению. Имея это в виду, меня никогда не удивляло, что хорошо спроектированные модели глубокого обучения оказались успешными.

Я всегда восхищался покером Техасский Холдем, потому что, чтобы преуспеть, игрок должен делать выводы и заставлять своего оппонента делать выводы плохо. Эта тактика требует более глубоких навыков, основанных исключительно на людях. Игра состоит из несовершенной информации.

Мне всегда было интересно, насколько успешным может быть глубокое обучение в мире покера. Увидеть, как ИИ побеждает профессионального игрока в покер, было бы захватывающе, наводящим на размышления о будущем ИИ и, возможно, даже немного зловещим. Если вы умеете играть, можете пропустить следующий абзац. Если нет, то стоит прочитать мой крайне расплывчатый обзор игры.

Техасский холдем основан на получении каждым игроком двух случайных частных карт. Для каждой руки существует четыре раунда ставок, и в каждом раунде дилер открывает новую общедоступную карту, которая меняет руку каждого игрока в лучшую или худшую сторону. То, как две карты игрока сочетаются с общими картами, определяет силу их позиции. После последнего раунда ставок каждый игрок представляет свои карты, чтобы увидеть, кто наберет больше всего очков. Игрок может сбросить (сдаться) в течение любого раунда за счет того, что ему не вернут предыдущие ставки.

Игра в основном заключается в том, как игроки делают ставки и когда. Ставки могут использоваться для того, чтобы ввести оппонента в заблуждение до такой степени, что он может сбросить лучшую руку. Мое объяснение не совсем демонстрирует, насколько сложной может быть игра с таким количеством факторов, которые необходимо учитывать при проведении игры - я настоятельно рекомендую посмотреть соответствующее руководство по Техасскому холдему, чтобы понять все тонкости.

DeepStack кажется первым проектом, которому частично удалось проверить машинное обучение на покере. DeepStack победил 11 профессиональных игроков в покер, сыграв в общей сложности 44 000 рук.

Технический подход DeepStack особенно интересен, поскольку он использует отдельные нейронные сети для каждого состояния игры (префлоп, флоп и т. Д.), Что признает тот факт, что каждое состояние игры требует совершенно разных точек зрения. Вдобавок к этому DeepStack построил очень явные целевые значения нейронной сети, создав поддеревья для представления всех возможных контрфактических значений. Другими словами, каждый возможный результат для следующего состояния был намечен, и со временем определенные ходы стали предпочтительнее в определенных сценариях.

Сеть обучалась миллионами случайно сгенерированных рук. Сюда входят случайные общедоступные карты, случайные карманные карты и случайные размеры банка. Они также являются входом в первую нейронную сеть (которая состоит из семи полностью связанных скрытых слоев). Эта сеть встроена во внешнюю сеть, которая заставляет контрфактические значения удовлетворять свойству нулевой суммы. Внешнее вычисление берет предполагаемые контрфактические значения, затем вычисляет взвешенную сумму с использованием диапазонов ввода двух игроков, что приводит к отдельным оценкам стоимости игры. Вот визуализация всей сети, взятая из описания DeepStack:

Удивительно видеть, что ИИ преуспел в игре, основанной на людях. Это еще одно напоминание о том, насколько мощным становится машинное обучение и насколько важна наука о данных для будущего ИИ. Чтобы узнать больше о DeepStack, посетите его веб-сайт или посмотрите некоторые игры, в которые играла эта модель, здесь.

Оригинальная история здесь.

— — — — — — — — — — — — — — — — — —

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.