Значения SHAP для режиссера, жанра, рейтинга и т. д.

В этой статье я использую набор данных, содержащий обширную информацию об 140 000 уникальных фильмов с веб-сайта Rotten Tomatoes, собранный по состоянию на апрель 2023 года. Набор данных публично доступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • выбор фильмов с определенными ярлыками — оценки как пользователей (оценка аудитории), так и профессиональных критиков (оценка томатометра) — по шкале от 0 до 100;
  • преобразование дат выпуска фильмов в десятилетия;
  • группировка продолжительность фильма в более крупные (20-минутные) ячейки;
  • извлечение столбцов жанры кино, режиссеры и звуковой микс и кодирование их с использованием не менее 25 записей, присутствующих в набор данных;
  • удаление неиспользуемых столбцов;
  • наконец, кодирование редких категориальных переменных, таких как рейтинги фильмов, дистрибьюторы, исходные языки, продолжительность времени выполнения и десятилетия выпуска с не более чем 60 различными категориями в каждом столбце и не менее 100 записей в каждой категории.

Наконец, мы получили набор данных с более чем 30 000 фильмов, с определенными оценками как от пользователей, так и от профессиональных критиков, и отобрали их для последующего анализа.

Шаг 2 — настройка модели машинного обучения для прогнозирования оценок пользователей

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 18,3 процентных пункта, что улучшение по сравнению с базовой моделью RMSE примерно на 20,9 пункта (при одинаковом около 62,2 балла за каждый фильм).

Шаг 3 — объяснение полученной модели машинного обучения

Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицы значения SHAP выражаются в процентных пунктах.

Во-первых, мы изучаем диапазон значений SHAP для основных функций, которые нас интересуют:

Как мы видим, наиболее важными факторами для прогнозирования оценки пользователями фильмов Rotten Tomatoes являются жанр фильма, продолжительность и дата выпуска.

Теперь рассмотрим индивидуальные особенности.

Что касается жанров фильмов, самые высокие оценки аудитории связаны с стендапом, документальными фильмами, аниме и анимационными фильмами:

Что касается кинорежиссеров, примечательно, что самые высокие оценки аудитории связаны с Акирой Куросавой, Ингмаром Бергманом, Райнером Вернером Фассбиндером, Ридли Скоттом. , Стивен Спилберг и Билли Уайлдер:

Что касается рейтингов фильмов, наивысшие оценки аудитории связаны с рейтингом PG (Родительский контроль):

Что касается даты выхода фильма, самые высокие оценки аудитории связаны с фильмами, выпущенными с 1920-х по 1960-е годы:

Что касается времени просмотра фильмов, примечательно, что самые высокие оценки аудитории связаны с фильмами продолжительностью 150–190 минут:

Наконец, что касается дистрибьюторов фильмов, самые высокие оценки аудитории связаны с фильмами, распространяемыми Sony Pictures Classics, за которыми следует New Yorker Films, Netflix, United Artists, Focus Features, Walt Disney и Miramax Films:

Шаг 4 — моделирование рейтингов критиков и их объяснение с точки зрения значений SHAP

Здесь я ищу более подробную информацию о другом рейтинге, представленном в наборе данных, а именно об усредненных рейтингах от некоторых из самых уважаемых мировых критиков (также известных как tomato-meter). Подобно рейтингам фильмов от пользователей, баллы оцениваются по шкале от 0 до 100.

Что касается жанров фильмов, то наивысшие оценки критиков связаны с документальными, аниме и стендапами. жанры:

Что касается кинорежиссеров, примечательно, что самые высокие оценки критиков связаны с Стивеном Фрирзом, за которым следуют Стивен Спилберг, Спайк Ли, Джонатан Демме , и Клод Шаброль:

Что касается рейтингов фильмов, то наивысшие оценки критиков связаны с отсутствием оценок, за которыми следует рейтинг R (с ограничениями). :

Что касается даты выхода фильма, самые высокие оценки критиков связаны с фильмами, выпущенными в период с 1920-х по 1940-е годы:

Что касается времени просмотра фильмов, примечательно, что наивысшие оценки критиков связаны с фильмами, длительность которых составляет 30–50 минут:

Наконец, что касается дистрибьюторов фильмов, самые высокие оценки аудитории связаны с фильмами, распространяемыми Music Box Films, за которыми следует Sony Pictures Classics, A24 и Кино Лорбер:

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.