Значения SHAP для режиссера, жанра, рейтинга и т. д.
В этой статье я использую набор данных, содержащий обширную информацию об 140 000 уникальных фильмов с веб-сайта Rotten Tomatoes, собранный по состоянию на апрель 2023 года. Набор данных публично доступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.
Шаг 1 — предварительная обработка данных
Здесь предварительная обработка данных состоит из следующих шагов:
- выбор фильмов с определенными ярлыками — оценки как пользователей (оценка аудитории), так и профессиональных критиков (оценка томатометра) — по шкале от 0 до 100;
- преобразование дат выпуска фильмов в десятилетия;
- группировка продолжительность фильма в более крупные (20-минутные) ячейки;
- извлечение столбцов жанры кино, режиссеры и звуковой микс и кодирование их с использованием не менее 25 записей, присутствующих в набор данных;
- удаление неиспользуемых столбцов;
- наконец, кодирование редких категориальных переменных, таких как рейтинги фильмов, дистрибьюторы, исходные языки, продолжительность времени выполнения и десятилетия выпуска с не более чем 60 различными категориями в каждом столбце и не менее 100 записей в каждой категории.
Наконец, мы получили набор данных с более чем 30 000 фильмов, с определенными оценками как от пользователей, так и от профессиональных критиков, и отобрали их для последующего анализа.
Шаг 2 — настройка модели машинного обучения для прогнозирования оценок пользователей
Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 18,3 процентных пункта, что улучшение по сравнению с базовой моделью RMSE примерно на 20,9 пункта (при одинаковом около 62,2 балла за каждый фильм).
Шаг 3 — объяснение полученной модели машинного обучения
Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицы значения SHAP выражаются в процентных пунктах.
Во-первых, мы изучаем диапазон значений SHAP для основных функций, которые нас интересуют:
Как мы видим, наиболее важными факторами для прогнозирования оценки пользователями фильмов Rotten Tomatoes являются жанр фильма, продолжительность и дата выпуска.
Теперь рассмотрим индивидуальные особенности.
Что касается жанров фильмов, самые высокие оценки аудитории связаны с стендапом, документальными фильмами, аниме и анимационными фильмами:
Что касается кинорежиссеров, примечательно, что самые высокие оценки аудитории связаны с Акирой Куросавой, Ингмаром Бергманом, Райнером Вернером Фассбиндером, Ридли Скоттом. , Стивен Спилберг и Билли Уайлдер:
Что касается рейтингов фильмов, наивысшие оценки аудитории связаны с рейтингом PG (Родительский контроль):
Что касается даты выхода фильма, самые высокие оценки аудитории связаны с фильмами, выпущенными с 1920-х по 1960-е годы:
Что касается времени просмотра фильмов, примечательно, что самые высокие оценки аудитории связаны с фильмами продолжительностью 150–190 минут:
Наконец, что касается дистрибьюторов фильмов, самые высокие оценки аудитории связаны с фильмами, распространяемыми Sony Pictures Classics, за которыми следует New Yorker Films, Netflix, United Artists, Focus Features, Walt Disney и Miramax Films:
Шаг 4 — моделирование рейтингов критиков и их объяснение с точки зрения значений SHAP
Здесь я ищу более подробную информацию о другом рейтинге, представленном в наборе данных, а именно об усредненных рейтингах от некоторых из самых уважаемых мировых критиков (также известных как tomato-meter). Подобно рейтингам фильмов от пользователей, баллы оцениваются по шкале от 0 до 100.
Что касается жанров фильмов, то наивысшие оценки критиков связаны с документальными, аниме и стендапами. жанры:
Что касается кинорежиссеров, примечательно, что самые высокие оценки критиков связаны с Стивеном Фрирзом, за которым следуют Стивен Спилберг, Спайк Ли, Джонатан Демме , и Клод Шаброль:
Что касается рейтингов фильмов, то наивысшие оценки критиков связаны с отсутствием оценок, за которыми следует рейтинг R (с ограничениями). :
Что касается даты выхода фильма, самые высокие оценки критиков связаны с фильмами, выпущенными в период с 1920-х по 1940-е годы:
Что касается времени просмотра фильмов, примечательно, что наивысшие оценки критиков связаны с фильмами, длительность которых составляет 30–50 минут:
Наконец, что касается дистрибьюторов фильмов, самые высокие оценки аудитории связаны с фильмами, распространяемыми Music Box Films, за которыми следует Sony Pictures Classics, A24 и Кино Лорбер:
Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.
Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.