Игры Машины Играть

В профессиональном образовании наблюдается движение в сторону обучающих игр. Это настольные игры, предназначенные для обучения или закрепления определенного навыка. Причина возрождения обучения через игру в том, что оно работает.

Дети и даже детеныши животных учатся, играя. Оказывается, взрослые тоже. Филипп Крухтен, инженер-консультант, разработал игру под названием «Миссия на Марс» для обучения принципам гибкости. В этой игре участники объединяются в команды и соревнуются с другими командами, используя принципы Agile. Впервые представленные на обучающей конференции, многие участники продолжали играть после закрытия выставки.

По данным группы 2018 года Высшей школы образования Стэнфорда, «игры помогают нам развивать некогнитивные навыки, которые так же важны, как и когнитивные навыки, для объяснения того, как мы учимся и добиваемся ли мы успеха». Они пришли к выводу, что эти некогнитивные навыки, то есть поведение человека, лучше подходят для игрового контекста, чем для традиционного класса, и являются гораздо более важным предиктором успеха, чем даже показатели IQ.

Люди во время игры создают стратегию для получения награды. Будь то значок, высший балл или доступ к следующему уровню. Игроки могут потерпеть неудачу в своих первых нескольких попытках. Учась на своих ошибках, они становятся лучше, чем больше они учатся. Именно в этом обучении они переходят от проигрыша к победе. Все благодаря новым навыкам, полученным в процессе игры.

В 1993 году я познакомился с SimCity на уроке социологии в Обернском университете. Игра, разработанная знаменитым Уиллом Райтом, который позже создал The Sims. Здесь один тип градостроителя и мэра в одном лице. Каждый переезд требует расширения городских служб и зонирования земельных участков на жилые, коммерческие или промышленные.

По мере того, как все больше площадей зонируется с услугами, жители начинают строительство. Чем лучше человек занимается планированием, тем больше становится население, и это финансирует новые проекты за счет налогообложения. Сделайте ставку налога слишком высокой, и люди уйдут или, что еще хуже, устроят бунт и сожгут строения. Слишком сильно понизьте налоговую ставку, и рост города остановится. Игроки награждаются статуями, парадами и статьями в ежедневной газете за постоянную хорошую работу.

Эта и подобные ей игры являются отличными учителями работы с системами. Город – это система правительства, людей и коммерческих предприятий. Все должны работать вместе, чтобы город работал. Хотя я так и не стал градостроителем, моя работа инженера связана с системами, и уроки, извлеченные из игры, остались частью моей профессиональной жизни.

Как играют машины

Обыграть компьютерную игру в шахматы очень сложно. Даже портативные игры Radio Shack 1980-х годов были сложными на самом высоком уровне. Причина в игровом дереве. Здесь машина может исследовать все ходы, затем все контрдвижения этим ходам, затем все ходы, противодействующие им, для каждого хода, сделанного противником-человеком.

В то время как такой новичок, как я, может застрять в бесконечном цикле движения-встречи с компьютером. Гроссмейстер по шахматам может обнаружить маленькую брешь в логике и запутать систему достаточно, чтобы победить. Причина в том, что компьютеры не играют как люди, поскольку они ограничены знанием игры — без представления о человеческом поведении.

В конце 2017 года журнал Nature опубликовал статью об AlphaGo. Это машина глубокого обучения, которую Google использовал для победы над лучшими игроками в го. Многие средства массовой информации опубликовали эту историю, и она стала общеизвестной. Причина была не в том, что машина победила игрока-человека. Что сделало это таким захватывающим, так это то, как машина научилась играть.

Традиционные системы, использующие дерево поиска по всем возможным ходам, не работают для Go. Это связано с тем, что в Го очень большое количество ходов, на самом деле больше ходов, чем количество атомов во Вселенной, и нет известного метода оценки силы каждого хода.

Вместо этого AlphaGo использует дерево поиска с нейронными сетями. Каждая сеть принимает описание платы в качестве входных данных, а затем обрабатывает миллионы сетевых слоев. По словам команды AlphaGo, «одна нейронная сеть, политическая сеть, выбирает следующий ход для игры. Другая нейронная сеть, сеть ценности, предсказывает победителя игры».

Это выходит далеко за рамки вашей игры в шахматы на Mac OS. AlphaGo начала с того, что провела тысячи игр сама с собой, учась на своих ошибках и немного улучшая каждую итерацию с помощью системы вознаграждений, известной как Reinforcement Learning.

Обучение с подкреплением

Игры работают, потому что они вознаграждают поведение. Награды за статус в сообществе достаточно, чтобы удерживать людей на месяцы или даже годы на одной игре. Он настолько силен, что вызывает реальную озабоченность по поводу зависимости от видеоигр.

Обучение с подкреплением или RL — это метод машинного обучения, заимствованный из поведенческой психологии. В отличие от контролируемого обучения, в RL основное внимание уделяется поиску баланса между исследованием и эксплуатацией. То есть вы используете знания, которые у вас есть, или изучаете другие варианты.

Принцип работы RL заключается в том, что система получает наблюдение. Затем он выбирает действие из набора опций. Среда системы переходит в новое состояние, и определяется вознаграждение, связанное с переходом. Цель системы — собрать как можно больше наград.

Результат системы сравнивается с другим оптимальным результатом, что дает системе понятие сожаления. Таким образом, система должна рассуждать о долгосрочных последствиях своих действий. Что-то, что большинство людей делает плохо. Это делает обучение с подкреплением хорошо подходящим для решения проблем, которые включают в себя компромисс между долгосрочным и краткосрочным вознаграждением.

У AlphaGo не было доступа ко всем доступным ходам Go. Вместо этого он играл против действительно хороших игроков и формулировал новые стратегии, основанные на своих прошлых ошибках. В 2016 году этот процесс зарекомендовал себя, так как AlphaGo получила 9-й дан профессионального рейтинга (высшая сертификация). Что больше всего шокирует, так это то, что некоторые приемы, которые AlphaGo делала в матчах профессионального уровня, были совершенно новыми. Таким образом, преподавание Го осваивает новые знания об их 3000-летней игре.

Теория игры

Прославившаяся благодаря фильму Рона Ховарда 2001 года «Игры разума», теория игр состоит из изучения математических моделей конфликта и сотрудничества. В совместных играх основное внимание уделяется предсказанию того, какие коалиции будут сформированы, совместным действиям группы и полученным выигрышам. Конфликтные методы анализируют, как процедуры переговоров повлияют на распределение выигрышей внутри таких коалиций.

Моя команда недавно создала систему машинного обучения, которая использует теорию игр для измерения эффективности деловых встреч. Мы учитываем как конфликтующие коалиции, так и сотрудничество, основанное на n числах индивидуальных ходов. Затем оцените, насколько полезной была встреча, а затем проанализируйте событие в формате, доступном для поиска.

Мы использовали непрерывную игру, состоящую из конечного числа ходов. Все сосредоточено вокруг теории о том, что собрания предлагают почти учебные лаборатории по теории игр. В каждом из них люди либо конфликтуют, либо сотрудничают, основываясь на одном или нескольких решениях. Каждый по очереди со своими комментариями и вопросами, которые составляют один ход в игре.

В то время как отдельные лица могут продемонстрировать лидерство в руководстве собранием. Чтобы собрание стало эффективным, требуется групповое сотрудничество. Интересным было бы исследование, в котором нескольким системам на основе ИИ предоставляется возможность работать вместе или конкурировать с другими системами для достижения заданной цели. Как Watson из IBM, выигравший Jeopardy, будет работать с AlphaGo от Google?

Это типы следующих шагов для ИИ. Предоставление нескольким системам возможности работать для достижения общей цели в качестве кооператоров или конкурентов. Это может решить проблемы гораздо более сложные, чем любая отдельная система. Однако это может стать антиутопическим кошмаром.

Торговля как игра

Финансовый трейдинг — это игра. Игроки решают действовать в конфликте или сотрудничестве с другими игроками, чтобы максимизировать свою прибыль. Существует награда за оптимальное поведение и сожаление о плохой работе. Однако есть аспект случайности, который отличает трейдинг от других стратегических игр, таких как го и шахматы, тем, что иногда нет принудительного способа выиграть.

AlphaGo доказала, что машины способны обнаруживать в играх неизвестные элементы. Как в матче Го, где компьютер создал новые стратегии, никогда ранее не реализованные. Остается вопрос: может ли машина создать выигрышную стратегию, когда в игре присутствует большая степень случайности?

Есть надежда, что в 1950-х годах математик Ллойд Шепли добавил к теории игр стохастическую игру. Как можно догадаться из названия, он предназначен для обработки случайных состояний в играх.

Стохастическая игра проводится в виде последовательности этапов, каждый из которых начинается в каком-то состоянии. Игроки выбирают действия и получают вознаграждение, которое зависит как от текущего состояния, так и от выбранных действий. После этого игра переходит в новое случайное состояние, распределение которого зависит от предыдущего состояния и действий, выбранных участниками. Это повторяется либо для конечного, либо для бесконечного числа этапов.

Этот тип игры очень похож на игру на финансовых рынках. Вопрос в том, может ли машина создать выигрышную стратегию в стохастической игре? Предостережение может исходить от самого рынка, поскольку количество игроков неизвестно.

Следует ли рассматривать весь рынок как одного игрока, находящегося в конфликте в стохастической игре? Однако все еще будут времена, когда оптимальных стратегий для любого игрока не существует. Это отправная точка, а не решение.

Вывод

И люди, и машины учатся, играя в игры благодаря совершенствованию некогнитивных навыков. Такие системы, как AlphaGo, доказали, что глубокое обучение способно создавать высокоэффективные стратегии из таких игр. Вопрос в том, можно ли включить стохастическую игру в систему глубокого обучения для разработки наиболее вероятных торговых стратегий?

Все это выглядит весьма многообещающе. Однако, как и в большинстве технологий, вполне вероятно, что первые 80% такой системы легко управляются. Для завершения следующих 20% может потребоваться десятилетие или более исследований.