SHAP значения места жительства сотрудника, уровня опыта, местоположения компании и т. д.
В этой статье я проанализировал набор данных, который содержит подробную информацию о 600 зарплатах в области Data Science (по всему миру) в 2020–2022 годах, взятых с веб-сайта ai-jobs.net. Этот набор данных общедоступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.
Шаг 1 — предварительная обработка данных
Здесь предварительная обработка данных состоит из следующих шагов:
- преобразование метки (годовая брутто-зарплата) в тысяч долларов США в год;
- без учета 1% самой высокой и 1% самой маленькой зарплаты;
- кодирование редких категориальных переменных (в столбцах employee_residence, job_title и experience_level) с не более чем 20 различными категории в каждом столбце и не менее 10 образцов данных в каждой категории;
- наконец, удаление неиспользуемых столбцов.
Шаг 2 — настройка модели машинного обучения для прогнозирования годовой валовой заработной платы
Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 41,2 тыс. долларов США в год, что является значительным улучшением по сравнению со среднеквадратичной ошибкой базовой модели, равной примерно 60,9 тыс. долларов США в год. (при одинаковой зарплате около 113 тысяч долларов США в год за каждую запись).
Шаг 3 — объяснение полученной модели машинного обучения.
Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицами стоимости SHAP являются kUSD/год.
Во-первых, мы изучаем диапазон значений SHAP для каждой интересующей нас функции:
Здесь наиболее важными характеристиками, определяющими заработную плату специалистов по науке о данных, являются место жительства сотрудника, уровень опыта и местоположение компании.
Теперь ищите более подробную информацию о каждой функции.
Что касается места проживания сотрудников, мы видим, что самая высокая валовая заработная плата связана с сотрудниками, проживающими в Соединенных Штатах, за которыми следует Канада и Великобритания:
Что касается уровня опыта, неудивительно, что самая высокая валовая заработная плата связана с сотрудниками с уровнем руководителя/директором, за которыми следуют старшие- уровень/Эксперт:
Что касается местонахождения компаний, самая высокая валовая заработная плата также связана с компаниями из США, за которыми следуют Канада и Великобритания:
Что касается названий должностей, неудивительно, что самые высокие валовые оклады связаны с архитекторами данных и менеджерами по обработке и анализу данных:
Для размеров компаний мы видим, что самая высокая валовая заработная плата связана с средними и крупными компаниями:
Что касается коэффициентов удаленной работы, самая высокая валовая заработная плата связана с полностью удаленными местами работы:
Что касается рабочих лет, мы видим, что средняя заработная плата в 2022 году находится между уровнями 2020 и 2021 годов, с разницей менее 1,5 тыс. долл. США в год (или ‹ 1,5%):
Наконец, для типов занятости самая высокая валовая заработная плата связана с полной занятостью:
Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.
Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.