Цель. Цель этого анализа - выявить факторы, приводящие к выбытию сотрудников.

Источник данных: этот вымышленный набор данных создан специалистами по данным IBM и опубликован на сайте Kaggle. В этом наборе данных 1470 записей о сотрудниках.

GitHub: нажмите здесь для просмотра всех скриптов.

Краткое резюме. После экспериментов с моделями логистической регрессии, дерева решений и случайного леса модель логистической регрессии в целом стала лучше предсказывать увольнение сотрудников. Выводы и рекомендации представлены в конце анализа.

Приведенное ниже содержимое демонстрирует, как я понимаю набор данных и как я разрабатываю модель.

Изучите данные

1. Чтение / загрузка данных

2. Объясните особенности: (и это лишь некоторые из них)

Убыток: увольняется ли сотрудник из компании.

NumCompaniesWorked: нет. компаний, с которыми работал сотрудник

PercentSalaryHike: на какой процент увеличивается заработная плата за период с прошлого по текущий год.

TotalWorkingYears: нет. лет проработал сотрудник

YearsInCurrentRole: количество лет, в течение которых сотрудник работал на текущей должности.

YearsSinceLastPromotion: нет. лет, проработанных сотрудником с момента последнего повышения

YearsWithCurrManager: нет. лет сотрудник проработал с текущим менеджером

3. Проверьте отсутствующее значение - отсутствие пропущенного значения

4. Просмотрите набор данных

Мы также можем определить коэффициент отсева по различным характеристикам.

по полу

от Business Travel - ушли 25% часто посещаемых сотрудников

по OverTime - 31% сотрудников, которые работали сверхурочно, ушли

по отделам и должностям: 21% сотрудников отдела продаж и 40% торговых представителей покинули компанию.

Модель логистической регрессии

  1. Подготовьте данные

Работа с категориальными данными

Работайте с непрерывными данными

Сплит тренировочный и тестовый набор

Стандартизируйте непрерывные данные

2. Модель сборки (с перекрестной проверкой)

3. Проверить точность

Точность, прецизионность, скорость отзыва

Кривая ROC

4. Получить коэффициенты

Модель дерева решений

  1. Подготовка к поиску по сетке

2. Найдите и создайте модель дерева решений (с перекрестной проверкой)

3. Проверьте характеристики модели

Точность, прецизионность, скорость отзыва

Применяя код, аналогичный модели логистической регрессии, мы можем получить коэффициент точности 0,78, коэффициент точности 0,55 и коэффициент отзыва 0,15.

Кривая ROC

Применяя аналогичный код в качестве модели логистической регрессии, мы можем получить кривую ROC следующим образом:

Модель случайного леса

  1. Подготовка к поиску по сетке

2. Найдите и создайте модель дерева решений (с перекрестной проверкой)

3. Проверьте характеристики модели

Точность, прецизионность, скорость отзыва

Применяя код, аналогичный модели логистической регрессии, мы можем получить коэффициент точности 0,89, коэффициент точности 0,84 и коэффициент отзыва 0,44.

Кривая ROC

Применяя аналогичный код в качестве модели логистической регрессии, мы можем получить кривую ROC следующим образом:

Поиск и рекомендации

Характеристики этих трех моделей указаны ниже. Ясно, что модель логистической регрессии лучше позволяет прогнозировать увольнение сотрудников.

Краткое изложение анализа приведено ниже:

  1. После экспериментов с моделями логистической регрессии, дерева решений и случайного леса была разработана модель со степенью точности 0,93 для прогнозирования истощения.
  2. «Сверхурочное время» и «BusinessTravel» - две основные важные функции, которые влияют на уход сотрудников. Сотрудники, работающие сверхурочно, и сотрудники, отправляющиеся в командировки, часто имеют тенденцию к уходу. Рекомендуется выделить больше ресурсов для решения этих двух аспектов.
  3. К другим факторам относятся Должность, семейное положение, количество лет с момента последнего продвижения по службе и количество лет на текущей должности.
  • Должность: у директора по исследованиям меньше шансов, тогда как у торгового представителя и лаборанта больше шансов покинуть компанию.
  • Семейное положение: холостые сотрудники имеют более высокую вероятность оттока.
  • Годы с момента последнего продвижения по службе и годы в текущей должности: у сотрудников, недавно получивших повышение, больше шансов, в то время как у сотрудников, которые остаются на текущей должности в течение длительного времени, вероятность оттока меньше.

4. Рекомендуется собирать такую ​​информацию, как «является ли сотрудник менеджером», «полученная выгода», «местонахождение», чтобы включить ее в модель в будущем.