Цель. Цель этого анализа - выявить факторы, приводящие к выбытию сотрудников.
Источник данных: этот вымышленный набор данных создан специалистами по данным IBM и опубликован на сайте Kaggle. В этом наборе данных 1470 записей о сотрудниках.
GitHub: нажмите здесь для просмотра всех скриптов.
Краткое резюме. После экспериментов с моделями логистической регрессии, дерева решений и случайного леса модель логистической регрессии в целом стала лучше предсказывать увольнение сотрудников. Выводы и рекомендации представлены в конце анализа.
Приведенное ниже содержимое демонстрирует, как я понимаю набор данных и как я разрабатываю модель.
Изучите данные
1. Чтение / загрузка данных
2. Объясните особенности: (и это лишь некоторые из них)
Убыток: увольняется ли сотрудник из компании.
NumCompaniesWorked: нет. компаний, с которыми работал сотрудник
PercentSalaryHike: на какой процент увеличивается заработная плата за период с прошлого по текущий год.
TotalWorkingYears: нет. лет проработал сотрудник
YearsInCurrentRole: количество лет, в течение которых сотрудник работал на текущей должности.
YearsSinceLastPromotion: нет. лет, проработанных сотрудником с момента последнего повышения
YearsWithCurrManager: нет. лет сотрудник проработал с текущим менеджером
3. Проверьте отсутствующее значение - отсутствие пропущенного значения
4. Просмотрите набор данных
Мы также можем определить коэффициент отсева по различным характеристикам.
по полу
от Business Travel - ушли 25% часто посещаемых сотрудников
по OverTime - 31% сотрудников, которые работали сверхурочно, ушли
по отделам и должностям: 21% сотрудников отдела продаж и 40% торговых представителей покинули компанию.
Модель логистической регрессии
- Подготовьте данные
Работа с категориальными данными
Работайте с непрерывными данными
Сплит тренировочный и тестовый набор
Стандартизируйте непрерывные данные
2. Модель сборки (с перекрестной проверкой)
3. Проверить точность
Точность, прецизионность, скорость отзыва
Кривая ROC
4. Получить коэффициенты
Модель дерева решений
- Подготовка к поиску по сетке
2. Найдите и создайте модель дерева решений (с перекрестной проверкой)
3. Проверьте характеристики модели
Точность, прецизионность, скорость отзыва
Применяя код, аналогичный модели логистической регрессии, мы можем получить коэффициент точности 0,78, коэффициент точности 0,55 и коэффициент отзыва 0,15.
Кривая ROC
Применяя аналогичный код в качестве модели логистической регрессии, мы можем получить кривую ROC следующим образом:
Модель случайного леса
- Подготовка к поиску по сетке
2. Найдите и создайте модель дерева решений (с перекрестной проверкой)
3. Проверьте характеристики модели
Точность, прецизионность, скорость отзыва
Применяя код, аналогичный модели логистической регрессии, мы можем получить коэффициент точности 0,89, коэффициент точности 0,84 и коэффициент отзыва 0,44.
Кривая ROC
Применяя аналогичный код в качестве модели логистической регрессии, мы можем получить кривую ROC следующим образом:
Поиск и рекомендации
Характеристики этих трех моделей указаны ниже. Ясно, что модель логистической регрессии лучше позволяет прогнозировать увольнение сотрудников.
Краткое изложение анализа приведено ниже:
- После экспериментов с моделями логистической регрессии, дерева решений и случайного леса была разработана модель со степенью точности 0,93 для прогнозирования истощения.
- «Сверхурочное время» и «BusinessTravel» - две основные важные функции, которые влияют на уход сотрудников. Сотрудники, работающие сверхурочно, и сотрудники, отправляющиеся в командировки, часто имеют тенденцию к уходу. Рекомендуется выделить больше ресурсов для решения этих двух аспектов.
- К другим факторам относятся Должность, семейное положение, количество лет с момента последнего продвижения по службе и количество лет на текущей должности.
- Должность: у директора по исследованиям меньше шансов, тогда как у торгового представителя и лаборанта больше шансов покинуть компанию.
- Семейное положение: холостые сотрудники имеют более высокую вероятность оттока.
- Годы с момента последнего продвижения по службе и годы в текущей должности: у сотрудников, недавно получивших повышение, больше шансов, в то время как у сотрудников, которые остаются на текущей должности в течение длительного времени, вероятность оттока меньше.
4. Рекомендуется собирать такую информацию, как «является ли сотрудник менеджером», «полученная выгода», «местонахождение», чтобы включить ее в модель в будущем.