Рейтинги на BoardGameGeek уже давно считаются одним из самых авторитетных способов оценки качества настольной игры любителями. Но что на самом деле говорит нам рейтинг? Конечно, рейтинг измеряет то, как люди решают оценивать игру, но что мы можем из этого сделать?

Эта статья основана на наборе данных, доступном на Kaggle, который содержит 4999 игр с рейтингом на BoardGameGeek по состоянию на июнь 2018 года. Наша основная задача будет заключаться в том, чтобы изучить, как объективные характеристики, такие как механика, жанр, год выпуска и время игры, влияют на средний рейтинг, и сколько игр имеют волшебный соус, чтобы превзойти их прогнозируемый рейтинг. Мы также рассмотрим некоторые из наиболее важных переменных и исследуем связь между ними и средней оценкой. Наконец, мы сгруппируем игры по механике и жанрам и рассмотрим, какие игры похожи друг на друга.

Создание модели

Мы собираемся использовать технику, называемую градиентным усилением, для построения модели дерева регрессии для данных. Повышение градиента - это новый метод, который часто может обеспечить дополнительную точность прогнозов по сравнению с существующими методами. Дерево регрессии можно рассматривать как регрессию, но оно может принимать как категориальные, так и непрерывные переменные. Кроме того, у дерева регрессии есть врожденные преимущества в улавливании взаимодействий переменных и работе с нелинейностью. Обратной стороной более сложных моделей такого рода является то, что они, как правило, генерируют сложные выходные данные и становятся «черными ящиками», которые генерируют выходные данные, но не таким легко объяснимым образом. К счастью, был разработан подход к объяснению результатов сложных моделей под названием SHAP (Аддитивные объяснения Шэпли), и мы будем широко использовать SHAP, чтобы объяснить, что на самом деле означает наша модель.

Мы собираемся использовать только объективные переменные, включая жанры, механику, год, среднюю продолжительность игры и максимальное / минимальное количество игроков. Среднеквадратичная ошибка модели составила около 0,40, что на удивление хорошо, поскольку это означает, что обычно мы можем предсказать рейтинг игры в пределах 0,4 по 10-балльной шкале!

Чтобы интерпретировать график значений SHAP, обратите внимание, что каждая строка представляет одну из характеристик модели: красный цвет указывает на высокое значение, а синий - на низкое. Значение SHAP, по сути, является мерой того, насколько значение этой функции влияет на общий прогнозируемый рейтинг, и строки ранжируются на основе среднего воздействия. Большинство переменных являются двоичными, поэтому красный - это игры, у которых есть свойство, синий - игры, у которых нет, а горизонтальная ось - важность этой функции для определения прогнозируемого рейтинга.

Например, мы видим, что год выпуска очень важен, а последние игры (показаны красным) имеют прогнозируемый рейтинг на 0,6 балла выше. И наоборот, более старые игры (показаны синим цветом) имеют рейтинг примерно на 0,3 балла ниже. Среднее время, необходимое для прохождения игры, также является важным фактором: более длинные игры обычно оцениваются выше на 0,4 балла. Это явление, возможно, неудивительно, поскольку пользователи BGG, вероятно, являются любителями, которым нравятся более длинные и тяжелые игры. Остальные из наиболее важных функций - это жанры или механики, большинство из которых дает повышение рейтинга до 0,2 пункта. Примечательно, что карточные игры в целом имеют рейтинг немного ниже, в то время как юмористические игры оцениваются на 0,3 балла ниже, а игры - на 0,2 балла ниже.

Здесь мы видим, что в среднем модель хорошо предсказывает рейтинг, при этом популярные игры имеют тенденцию работать лучше, чем ожидалось, а игры с высоким рейтингом также имеют тенденцию работать лучше, чем ожидалось.

Наш анализ, по сути, является регрессией, поэтому полезно убедиться, что он хорошо моделирует данные без какого-либо необъяснимого поведения остатков. Как это часто бывает, прямой график QQ говорит нам, что предположение о нормально распределенной ошибке было достаточно точным, и наша модель не имеет каких-либо серьезных структурных проблем. Стоит отметить, что, хотя общая дисперсия средней оценки составляла около 0,3, наши остатки имели дисперсию 0,16, что позволяет предположить, что наша модель охватила чуть менее половины общей дисперсии, что является настолько большим, насколько мы могли ожидать, не включая субъективных оценок. вообще!

Как мы увидим в следующей части этой статьи, похоже, что в среднем игры могут работать примерно на пол-очка лучше или хуже, чем ожидалось.

Где волшебство?

Итак, теперь, когда у нас есть модель, которая может разумно прогнозировать оценку, возникает естественный вопрос: какие факторы нельзя представить в виде механики или категорий? Другими словами, насколько "волшебный соус" в игре делает ее рейтинг лучше или хуже, чем ожидалось? Для этого мы берем фактический результат каждой игры и вычитаем из него прогнозируемый результат, а затем строим график в зависимости от рейтинга игры. Как и следовало ожидать, в играх с более высоким рейтингом больше волшебного соуса, чем в играх с более низким рейтингом. Обратите внимание, что примерно для 1000 лучших игр наблюдается тенденция к более высоким результатам, чем ожидалось, а для около 200 лучших игр даже лучше.

Как только мы попадаем в топ-500, у нас появляется сильная тенденция быть примерно на полпункта лучше, чем ожидалось. В некоторой степени интересно то, что новые игры на самом деле имеют тенденцию опускаться ниже этой отметки, что указывает на то, что, хотя в новых играх выбираются популярные категории и механики, многие из них немного отстают от того, что предполагают их основы.

В старых играх наблюдается обратное явление, но примечательно, что старые игры, которые не могут быть исключительными, со временем падают в рейтинге, поскольку их заменяют новейшие и лучшие. Это явление привело к тому, что некоторые стали называть настольные игры хобби «культом нового».

Однако это ничего не стоит, потому что, поскольку рейтинги основаны на рейтинге компьютерных фанатов, который имеет байесовский балласт, новые игры требуют более высокого среднего рейтинга, чтобы достичь того же рейтинга, что и старая игра, просто потому, что у них, как правило, еще не будет такого количества голосов. .

Здесь мы видим, что у волшебного соуса дисперсия заметно меньше, чем у средней оценки, поскольку мы уловили примерно половину дисперсии в нашей модели.

В то время как количество «волшебного соуса» изменяется с примерно -0,7 на 5000 ранге до примерно +0,8 на ранге 1 (разница в 1,5 балла), обратите внимание, что средний рейтинг фактически увеличивается с примерно 6,0 до примерно 8,5, то есть разница в 2,5 балла. , что указывает на то, что средний рейтинг не в большей степени связан с качеством каждой отдельной игры, а с популярностью категорий и механики каждой игры.

Когда мы отсортируем по количеству волшебного соуса в каждой из 500 лучших игр и возьмем первые 50 записей, мы получим список слева. Многие из игр в списке также входят в 100 лучших игр BGG, но многие из них нет.

Некоторые из вариантов определенно выделяются как игры, в которых есть что-то, что нельзя объяснить простыми категориями и механиками. Например, Gloomhaven широко известен как один из лучших, если не лучший сканер подземелий, когда-либо созданных, и, тем не менее, если посмотреть только на его сухие характеристики, он не будет сильно отличаться от других игр, таких как, например, Descent. На самом деле его популярность говорит сама за себя. Если мы посмотрим на игры, которые не получили такого высокого рейтинга, но все же попали в список, мы увидим некоторые отрывки, такие как YINSH, которые продолжают иметь поклонников даже через 16 лет после выпуска, а также некоторые неизменные фавориты, такие как Codenames и Resistance.

Конечно, ни одно обсуждение этого списка не могло бы быть полностью без разговора о Pandemic Legacy. Любопытно в Pandemic Legacy то, что его рейтинг намного выше, чем у Pandemic или любого другого его варианта, вероятно, из-за фактора наследия, добавляющего что-то нематериальное, но благоприятное для игры. Конечно, здесь может быть некоторая предвзятость выборки, поскольку вполне вероятно, что игроки Pandemic Legacy, как правило, являются теми, кто наслаждался Pandemic. Но этот эффект, вероятно, повлияет на многие игры, поскольку вы не ожидаете, что кто-то купит большие евро в качестве одной из первых настольных игр, которыми они владеют.

Мы также видим появление таких классических игр, как Crokinole, Go и MTG.

С другой стороны, как насчет переоцененных игр? Я действительно владею парочкой из них, а именно XCOM и Tiny Epic Kingdoms, и могу подтвердить, что они собирают пыль на полке. Например, ожидается, что Tiny Epic Kingdoms получит приличный рейтинг (7,19), основанный, например, на том, что они являются точкой действия, контролем области, перемещением области, размещением рабочих с переменными полномочиями игрока, но он достигает только среднего рейтинга 6,67 . Судя по тому, что я в нее поиграл, это совсем не удивительно, так как я думаю, что играл в нее однажды, и у меня никогда не возникало желания снимать ее с полки.

Так что все это значит?

Так какой вывод? Рейтинги BGG уже давно используются как бесценный инструмент для оценки достоинств настольных игр, и нельзя отрицать влияние рейтинга BGG игры на ее продажи. И все же кажется, что многие рейтинги можно предсказать, ничего не зная о них, кроме того, какие механизмы они используют.

Любители давно спорили о полезности рейтингов BGG, и мнения охватывают весь спектр: между теми, кто считает рейтинг всем, и теми, кто считает рейтинг совершенно бесполезным. Как оказалось, оба лагеря были правы. В то время как многие рейтинги заложены в механизмах игры, в действительно хороших играх есть дополнительная магия, которую вам нужно сыграть, чтобы испытать.

Если учесть предсказуемость, мы получим список лучших игр, который в какой-то мере одновременно знаком и новинку. Я определенно с нетерпением жду возможности попробовать некоторые из них, будь то поиск вдохновения в совершенно новой игре или возвращение магии в старый, но забытый фаворит.

В качестве последней мысли, вот несколько гистограмм среднего балла, которые сравнивают игры с каждым из свойств и без них.