Значения SHAP для авторов, поджанров и т. д.

В продолжение предыдущей статьи Книжные рейтинги от Goodreads — SHAP ценности авторов, издателей и т. д. | Дмитрия Якубовского | декабрь 2022 г. | Medium, здесь я ищу книги определенного жанра — научная фантастика (Sci-Fi) — путем анализа общедоступного набора данных, который включает пользовательские рейтинги более 10 000 книг. strong> с сайта Goodreads. Набор данных публично доступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • выбор книг, вышедших в 1930–2022 годах;
  • выбор книг со средним рейтингом больше или равным 1;
  • выбор книг, оцененных не менее чем в 10 раз;
  • log10-преобразование количества рейтинговых голосов (чтобы 100 голосов стали 2,0, 1000 голосов стали 3,0 и т. д.) — мы воспользуемся этим позже на шаге 4;
  • группировка годов публикации в более крупные ячейки (десятилетия);
  • кодирование редких категориальных переменных (автор и язык) с не более чем 60 различными категориями в каждом столбце и не менее 20 записи в каждой категории;
  • наконец, удаление неиспользуемых столбцов.

В результате этого отбора мы получили набор данных из около 14 700 книг с рейтингом от 1 до 5.

Шаг 2 — настройка модели машинного обучения для прогнозирования рейтингов книг

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 0,259 рейтинговых баллов, что улучшение по сравнению с базовой моделью RMSE примерно на 0,282 балла (при одинаковом рейтинг около 3,94 балла для каждой записи, представленной в наборе данных).

Шаг 3 — объяснение полученной модели машинного обучения

Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицы ценности SHAP выражаются в рейтинговых баллах.

Во-первых, мы изучаем диапазон значений SHAP для основных функций, которые нас интересуют:

Как мы видим, наиболее важными признаками для прогнозирования рейтинга книг являются имя автора, за которым следует поджанр, десятилетие публикации и издание язык.

Теперь рассмотрим индивидуальные особенности.

Примечательно, что самые высокие рейтинги книг связаны с книгами, авторами которых является Линдси Бурокер, за которой следует Марисса Мейер. , Брэндон Сандерсон, Кассандра Клэр, Дуглас Адамс, Юкито Кисиро, Илона Эндрюс, Питер Ф. Гамильтон, Джеймс С.А. Кори, Роберт Киркман , Уоррен Эллис, Джоди Тейлор, Тейлор Андерсон, Гейл Кэрригер, Брайан К. Воган, Джек Кэмпбелл, Джаспер Ффорде и Исаак Азимов:

Что касается языков издания, примечательно, что самые высокие рейтинги книг связаны с другими языками (за исключением английского, французского и немецкого):

Что касается поджанров, то мы видим, что самые высокие рейтинги книг связаны с Альтернативная вселенная, за которыми следуют Военная фантастика, >Космическая опера и поджанры Пришельцы:

Наконец, что касается десятилетия публикации, самые высокие рейтинги книг связаны с книгами, опубликованными в 2020-х годах, за которыми следуют 1950-е годы. >, 2010-е и 1970-е:

Шаг 4 — моделирование рейтинговых голосов и их объяснение с точки зрения значений SHAP

Здесь мы повторяем процедуру, выполненную на предыдущих шагах 2 и 3, для моделирования рейтинговых голосов, преобразованных в log10 (так, чтобы 100 голосов стали 2, 1000 голосов стали 3 и т. д.).

После моделирования мы видим, что наиболее важными признаками для прогнозирования рейтинговых голосов являются поджанр, за которым следует имя автора, десятилетие публикации. и издание язык.

Что касается поджанров, то самые высокие рейтинги связаны с Альтернативная вселенная, за которым следуют Дистопия, Апокалиптика. >» и поджанры Космическая опера:

Что касается авторов, мы видим, что самый высокий рейтинг голосов связан с Дугласом Адамсом, за которым следуют Марисса Мейер, Кассандра Клэр, Орсон Скотт Кард, Иэн М. Бэнкс, Джеймс С.А. Кори, Брэндон Сандерсон, Брайан К. Вон, Лоис Макмастер Буджолд, Джаспер Ффорде, Стивен Кинг и Дэн Симмонс:

Что касается десятилетия публикации, то самые высокие оценки связаны с книгами, опубликованными в 1930-х, за которыми следуют 1940-е, strong>1950-е, 1960-е и 1970-е:

Наконец, мы видим, что самые высокие оценки связаны с английским языком издания:

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.