Использование инфраструктуры CRISP-DM в наборе данных фильмов IMBd

В этом посте я буду использовать структуру CRISP-DM, чтобы получить ответ о прогнозировании доходов от фильмов на основе набора данных IMBd. Я отвечу на следующие вопросы:

Каково общее количество фильмов в разных категориях?
Какие жанры из года в год пользуются наибольшей популярностью?
Какое среднее число голосов попало в 10 самых дорогих фильмов с точки зрения бюджета?
Каков самый высокий бюджет и его доход для фильма, относящегося к категории драмы?
Какой режиссер снял более 15 фильмов выше среднего дохода?
Можем ли мы предсказать доход от фильма на основе режиссера, бюджета, времени показа, жанров и среднего числа голосов?

Прежде всего, давайте немного лучше разберемся в этой структуре, полная картина которой приведена ниже:

В отрасли существует множество инструментов и методов, относящихся к области науки о данных. У всех фреймворков есть свои плюсы и минусы. Однако одним из наиболее распространенных является фреймворк CRISP-DM, заявленный как межотраслевой стандартный процесс интеллектуального анализа данных. Это проверенный способ направлять усилия по интеллектуальному анализу данных.

Последовательность фаз не является строгой. Многие проекты перемещаются между фазами по мере необходимости. Он гибкий и может быть легко настроен.

Жизненный цикл интеллектуального анализа данных состоит из 6 шагов:

Понимание бизнеса

Это очень важный шаг, поскольку он будет управлять всеми последующими процессами. Это о том, чтобы знать ваши проблемы бизнеса. Вопрос, на который нужно ответить, должен быть четко сформулирован и сфокусирован на ваших проблемах.

Здесь я попытаюсь ответить, могу ли я предсказать доход от фильма на основе конкретных характеристик. Это важный вопрос, так как фильмы требуют большого бюджета, например, на Игру престолов 8 сезон было потрачено около 90 миллионов долларов. Это огромно для телешоу, состоящего всего из 6 серий.

Понимание данных

Бизнес в настоящее время собирает огромное количество данных. Крайне важно понимать, что было собрано и какие данные необходимы для решения наших бизнес-задач.

Поскольку невозможно заранее узнать, какие данные полезны, а какие нет, компании склонны собирать всю возможную информацию, опасаясь упустить что-то полезное для своих идей в будущем.

В нашем проекте набор данных содержит более 10 000 записей со следующими 21 параметром:

Пример строки:

Как видим, некоторых данных не хватает:

Подготовка данных

Эта часть посвящена обработке данных. Вам нужно выбрать данные и очистить свой набор данных.

Мы удалили все бесполезные столбцы и пропущенные значения. Для таких функций, как жанры и режиссеры, мы видели несколько записей. Я их разделю.

Теперь, когда я очистил набор данных, давайте посмотрим, сможем ли мы ответить на наши вопросы, поставленные в начале.

Каково общее количество фильмов в разных категориях?

Какие жанры из года в год пользуются наибольшей популярностью?

Согласно нашему исследованию, мы видим, что общая тенденция – это драма, комедия, триллер и боевик на четвертой позиции. Можно сделать вывод, что такие пленки достаточно требовательны со стороны покупателей. Затем мы исследовали, какие жанры являются наиболее популярными из года в год, и мы видим, что драма является самой популярной на протяжении многих лет, за ней следует комедия.

Какое среднее число голосов попало в 10 самых дорогих фильмов с точки зрения бюджета?

Каков самый высокий бюджет и его доход для фильма, относящегося к категории драмы?

Самым дорогим фильмом с точки зрения бюджета является «Путь воина», за которым следуют «Пираты Карибского моря». Мы видим, что рейтинг участников довольно низкий, и мы можем в качестве гипотезы сказать, что высокобюджетный фильм не обязательно означает фильм, который нравится людям. Действительно, в категории драмы самый высокий бюджет (который составляет половину самого дорогого) принес большой доход.

Какой режиссер снял более 15 фильмов выше среднего дохода?

В целом, согласно этому набору данных, режиссеры, снявшие более 15 фильмов с доходом выше среднего, являются самыми известными, такими как Спилберг, Скотт, Ховард и Иствуд. Поэтому было бы неплохо сделать ставку на них, чтобы реализовать фильмы.

Моделирование

На этом этапе вы выберете и реализуете модель, которую будете использовать для своего прогноза. Если этот шаг не увенчался успехом, вы можете переработать часть подготовки данных.

Я использовал модель ансамбля, то есть случайный лес. Он считается очень точным и надежным методом из-за количества деревьев решений, участвующих в процессе. Он также не страдает от проблемы переобучения. Основная причина в том, что он берет среднее значение всех прогнозов, что устраняет систематические ошибки.

Оценка

В этой части настало время оценить модель с метриками, характерными для расследуемого случая. Если мы не удовлетворены, мы либо переосмысливаем наши бизнес-требования, либо оптимизируем модель.

С приведенной выше моделью я достиг успеха предсказания 97%.

Развертывание

Если все прошло хорошо, я имею в виду оценку и тестирование, модель готова к запуску в производство и развертыванию.

В нашем случае модель готова!

В этой статье мы использовали структуру CRISP-DM для набора данных IMBd, чтобы предсказать доход от нового фильма. Исходный код можно найти на GitHub.