Значения SHAP для страны, опыта, должности, года и т. д.
В этой статье я использую новейший обновленный общедоступный набор данных, взятый с веб-сайта ai-jobs.net, который содержит (по состоянию на июль 2023 г.) 3300 брутто-зарплат в домене данных за 2020–2023 гг. специалисты, в том числе специалисты по данным, инженеры данных, аналитики данных, менеджеры данных и многие другие. Набор данных также общедоступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.
Шаг 1 — предварительная обработка данных
Здесь предварительная обработка данных состоит из следующих шагов:
- преобразование метки (годовая брутто-зарплата) в тысяч долларов США в год;
- объединяя столбцы Опыт и Уровень квалификации, а также страны Место жительства сотрудника и Местоположение компании.
- кодирование редких категориальных переменных (в столбцах employee_residence, job_title и experience_level) с не более чем 50 различными категории в каждом столбце и не менее 15 образцов данных в каждой категории;
- наконец, удаление неиспользуемых столбцов.
Обратите внимание, что, в отличие от предыдущего анализа,
никакие выбросы не были удалены, вместо этого следуя рекомендациям, описанным в
В результате все доступные точки данных используются в последующем анализе.
Шаг 2 — настройка модели машинного обучения для прогнозирования годовой валовой заработной платы
Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает…