Как геймер, я всегда хотел увидеть эволюцию игр на протяжении многих лет, и сегодня у меня была возможность взглянуть на прошлые данные о продажах игр всех жанров, и в этой статье я покажу прошлое. записи о выпусках игр и относительных продажах, а также о том, как они меняются с течением времени.

Источник данных

Во-первых, в качестве набора данных я выбрал этот набор данных от Kaggle, набравший более 5000 голосов, который включает в себя информацию и данные о продажах более чем 11000 игр, выпущенных с 1980 по 2020 год: https://www.kaggle.com/datasets/gregorut/ продажи видеоигр.

Очистка данных

Сначала я начал с загрузки данных и получения общей информации о данных:

df1 = pd.read_csv('../data/vgsales.csv')
df1.dataframeName = 'vgsales.csv'
print(df1.head(5))
   Rank                      Name Platform    Year         Genre Publisher  \
0     1                Wii Sports      Wii  2006.0        Sports  Nintendo   
1     2         Super Mario Bros.      NES  1985.0      Platform  Nintendo   
2     3            Mario Kart Wii      Wii  2008.0        Racing  Nintendo   
3     4         Wii Sports Resort      Wii  2009.0        Sports  Nintendo   
4     5  Pokemon Red/Pokemon Blue       GB  1996.0  Role-Playing  Nintendo   

   NA_Sales  EU_Sales  JP_Sales  Other_Sales  Global_Sales  
0     41.49     29.02      3.77         8.46         82.74  
1     29.08      3.58      6.81         0.77         40.24  
2     15.85     12.88      3.79         3.31         35.82  
3     15.75     11.01      3.28         2.96         33.00  
4     11.27      8.89     10.22         1.00         31.37  

Похоже, что существует 4 категориальных признака (название, платформа, жанр и издатель) и 6 числовых признаков (год, Северная Америка/ЕС/Япония/другое/глобальные продажи).

Затем я проверил количество значений NaN, которое оказалось очень небольшим.

df1.isnull().sum().sort_values(ascending=False).head(10)
Year           271
Publisher       58
Rank             0
Name             0
Platform         0
Genre            0
NA_Sales         0
EU_Sales         0
JP_Sales         0
Other_Sales      0
dtype: int64

А поскольку количество значений NaN значительно меньше общего количества строк, я могу их просто удалить.

После этого я создал несколько визуализаций, чтобы понять распределение различных функций.

Как мы видим, лучшие годы для видеоигр — с 2005 по 2015 год, а самые кассовые жанры — это экшн, спорт и ролевые игры.

Затем, используя Tableau, я создал несколько визуализаций тенденций продаж в разных регионах.

Вывод, который мы можем сделать из этих двух диаграмм, заключается в том, что Северная Америка является регионом с наибольшими объемами продаж, но крупнейшим издателем видеоигр является Nintendo, за ней следуют две североамериканские компании EA, Activision и затем Sony, что также происходит с быть японцем.

Затем я решил создать динамичное видео о продажах видеоигр за разные годы.

Для этого мне пришлось изменить набор данных, чтобы он выглядел так:

    Genre  Year Platform    Best_Seller
0  Action  1980     2600  North America
1  Action  1981     2600  North America
2  Action  1982     2600  North America
3  Action  1983     2600  North America
4  Action  1984      NES          Japan

Затем я использовал эти данные для создания динамической визуализации продаж видеоигр в разных регионах, и вот конечный результат: