Значения SHAP для авторов, поджанров и т. д.
В продолжение предыдущей статьи Книжные рейтинги от Goodreads — SHAP ценности авторов, издателей и т. д. | Дмитрия Якубовского | декабрь 2022 г. | Medium, здесь я ищу книги определенного жанра — научная фантастика (Sci-Fi) — путем анализа общедоступного набора данных, который включает пользовательские рейтинги более 10 000 книг. strong> с сайта Goodreads. Набор данных публично доступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.
Шаг 1 — предварительная обработка данных
Здесь предварительная обработка данных состоит из следующих шагов:
- выбор книг, вышедших в 1930–2022 годах;
- выбор книг со средним рейтингом больше или равным 1;
- выбор книг, оцененных не менее чем в 10 раз;
- log10-преобразование количества рейтинговых голосов (чтобы 100 голосов стали 2,0, 1000 голосов стали 3,0 и т. д.) — мы воспользуемся этим позже на шаге 4;
- группировка годов публикации в более крупные ячейки (десятилетия);
- кодирование редких категориальных переменных (автор и язык) с не более чем 60 различными категориями в каждом столбце и не менее 20 записи в каждой категории;
- наконец, удаление неиспользуемых столбцов.
В результате этого отбора мы получили набор данных из около 14 700 книг с рейтингом от 1 до 5.
Шаг 2 — настройка модели машинного обучения для прогнозирования рейтингов книг
Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 0,259 рейтинговых баллов, что улучшение по сравнению с базовой моделью RMSE примерно на 0,282 балла (при одинаковом рейтинг около 3,94 балла для каждой записи, представленной в наборе данных).
Шаг 3 — объяснение полученной модели машинного обучения
Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицы ценности SHAP выражаются в рейтинговых баллах.
Во-первых, мы изучаем диапазон значений SHAP для основных функций, которые нас интересуют:
Как мы видим, наиболее важными признаками для прогнозирования рейтинга книг являются имя автора, за которым следует поджанр, десятилетие публикации и издание язык.
Теперь рассмотрим индивидуальные особенности.
Примечательно, что самые высокие рейтинги книг связаны с книгами, авторами которых является Линдси Бурокер, за которой следует Марисса Мейер. , Брэндон Сандерсон, Кассандра Клэр, Дуглас Адамс, Юкито Кисиро, Илона Эндрюс, Питер Ф. Гамильтон, Джеймс С.А. Кори, Роберт Киркман , Уоррен Эллис, Джоди Тейлор, Тейлор Андерсон, Гейл Кэрригер, Брайан К. Воган, Джек Кэмпбелл, Джаспер Ффорде и Исаак Азимов:
Что касается языков издания, примечательно, что самые высокие рейтинги книг связаны с другими языками (за исключением английского, французского и немецкого):
Что касается поджанров, то мы видим, что самые высокие рейтинги книг связаны с Альтернативная вселенная, за которыми следуют Военная фантастика, >Космическая опера и поджанры Пришельцы:
Наконец, что касается десятилетия публикации, самые высокие рейтинги книг связаны с книгами, опубликованными в 2020-х годах, за которыми следуют 1950-е годы. >, 2010-е и 1970-е:
Шаг 4 — моделирование рейтинговых голосов и их объяснение с точки зрения значений SHAP
Здесь мы повторяем процедуру, выполненную на предыдущих шагах 2 и 3, для моделирования рейтинговых голосов, преобразованных в log10 (так, чтобы 100 голосов стали 2, 1000 голосов стали 3 и т. д.).
После моделирования мы видим, что наиболее важными признаками для прогнозирования рейтинговых голосов являются поджанр, за которым следует имя автора, десятилетие публикации. и издание язык.
Что касается поджанров, то самые высокие рейтинги связаны с Альтернативная вселенная, за которым следуют Дистопия, Апокалиптика. >» и поджанры Космическая опера:
Что касается авторов, мы видим, что самый высокий рейтинг голосов связан с Дугласом Адамсом, за которым следуют Марисса Мейер, Кассандра Клэр, Орсон Скотт Кард, Иэн М. Бэнкс, Джеймс С.А. Кори, Брэндон Сандерсон, Брайан К. Вон, Лоис Макмастер Буджолд, Джаспер Ффорде, Стивен Кинг и Дэн Симмонс:
Что касается десятилетия публикации, то самые высокие оценки связаны с книгами, опубликованными в 1930-х, за которыми следуют 1940-е, strong>1950-е, 1960-е и 1970-е:
Наконец, мы видим, что самые высокие оценки связаны с английским языком издания:
Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.
Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.