Значения SHAP для страны, опыта, должности, года и т. д.

В этой статье я использую новейший обновленный общедоступный набор данных, взятый с веб-сайта ai-jobs.net, который содержит (по состоянию на июль 2023 г.) 3300 брутто-зарплат в домене данных за 2020–2023 гг. специалисты, в том числе специалисты по данным, инженеры данных, аналитики данных, менеджеры данных и многие другие. Набор данных также общедоступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • преобразование метки (годовая брутто-зарплата) в тысяч долларов США в год;
  • объединяя столбцы Опыт и Уровень квалификации, а также страны Место жительства сотрудника и Местоположение компании.
  • кодирование редких категориальных переменных (в столбцах employee_residence, job_title и experience_level) с не более чем 50 различными категории в каждом столбце и не менее 15 образцов данных в каждой категории;
  • наконец, удаление неиспользуемых столбцов.

Обратите внимание, что, в отличие от предыдущего анализа,



никакие выбросы не были удалены, вместо этого следуя рекомендациям, описанным в



В результате все доступные точки данных используются в последующем анализе.

Шаг 2 — настройка модели машинного обучения для прогнозирования годовой валовой заработной платы

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает…