SHAP значения места жительства сотрудника, уровня опыта, местоположения компании и т. д.

В этой статье я проанализировал набор данных, который содержит подробную информацию о 600 зарплатах в области Data Science (по всему миру) в 2020–2022 годах, взятых с веб-сайта ai-jobs.net. Этот набор данных общедоступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • преобразование метки (годовая брутто-зарплата) в тысяч долларов США в год;
  • без учета 1% самой высокой и 1% самой маленькой зарплаты;
  • кодирование редких категориальных переменных (в столбцах employee_residence, job_title и experience_level) с не более чем 20 различными категории в каждом столбце и не менее 10 образцов данных в каждой категории;
  • наконец, удаление неиспользуемых столбцов.

Шаг 2 — настройка модели машинного обучения для прогнозирования годовой валовой заработной платы

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 41,2 тыс. долларов США в год, что является значительным улучшением по сравнению со среднеквадратичной ошибкой базовой модели, равной примерно 60,9 тыс. долларов США в год. (при одинаковой зарплате около 113 тысяч долларов США в год за каждую запись).

Шаг 3 — объяснение полученной модели машинного обучения.

Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицами стоимости SHAP являются kUSD/год.

Во-первых, мы изучаем диапазон значений SHAP для каждой интересующей нас функции:

Здесь наиболее важными характеристиками, определяющими заработную плату специалистов по науке о данных, являются место жительства сотрудника, уровень опыта и местоположение компании.

Теперь ищите более подробную информацию о каждой функции.

Что касается места проживания сотрудников, мы видим, что самая высокая валовая заработная плата связана с сотрудниками, проживающими в Соединенных Штатах, за которыми следует Канада и Великобритания:

Что касается уровня опыта, неудивительно, что самая высокая валовая заработная плата связана с сотрудниками с уровнем руководителя/директором, за которыми следуют старшие- уровень/Эксперт:

Что касается местонахождения компаний, самая высокая валовая заработная плата также связана с компаниями из США, за которыми следуют Канада и Великобритания:

Что касается названий должностей, неудивительно, что самые высокие валовые оклады связаны с архитекторами данных и менеджерами по обработке и анализу данных:

Для размеров компаний мы видим, что самая высокая валовая заработная плата связана с средними и крупными компаниями:

Что касается коэффициентов удаленной работы, самая высокая валовая заработная плата связана с полностью удаленными местами работы:

Что касается рабочих лет, мы видим, что средняя заработная плата в 2022 году находится между уровнями 2020 и 2021 годов, с разницей менее 1,5 тыс. долл. США в год (или ‹ 1,5%):

Наконец, для типов занятости самая высокая валовая заработная плата связана с полной занятостью:

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.