Премьера проекта HDSC, август '21: Аналитика человеческих ресурсов

Проект команды Кераса

HR-аналитика коренным образом меняет методы работы отделов управления персоналом, что приводит к более высокой эффективности и лучшим результатам в целом. Человеческие ресурсы использовали аналитику в течение многих лет, однако сбор, обработка и анализ данных в основном выполнялись вручную. Учитывая характер динамики человеческих ресурсов и КПЭ HR, подход был ограничивающим. Поэтому удивительно, что HR-отделы обнаружили полезность машинного обучения так поздно. Аналитики данных могут делать выводы из данных, а прогнозная аналитика может выполняться специалистами по данным и инженерами. Очевидно, что машинное обучение может выполнить эту задачу с минимальными трудностями или без них, а также с относительно большей точностью и скоростью.

Цели и задачи

Цель этого проекта - построить модель машинного обучения, которая предсказывает, следует ли продвигать сотрудника по службе или нет. Модель также должна быть развернута, чтобы иметь возможность делать прогнозы в реальном времени. Этого можно достичь, обучив модели машинного обучения прошлым и настоящим показателям сотрудников компании, а также другим демографическим данным.

Поточный процесс

Источники данных: это связано с поиском почти идеального набора данных для этого проекта.
Подготовка данных: Это связано с пререканиями, очисткой и удаление выбросов. Он также включает в себя исследовательский анализ данных для получения значимой информации из набора данных.
Обучение модели: на этом этапе очищенные данные вводятся в модель, чтобы модель могла изучить шаблоны из набора данных.
Оценка и проверка модели: После обучения модели ее следует использовать для некоторых прогнозов. Затем ее производительность будет оценена и подтверждена.
Развертывание модели: Проверенная и окончательная модель должна быть развернута в Интернете, чтобы кто-либо мог делать прогнозы в реальном времени.

Источник данных

У нас есть почти идеальные данные для этой проблемы на Kaggle, и вот ссылка на набор данных [https://www.kaggle.com/bhrt97/hr-analytics-classification].

Подготовка данных

Как и ожидалось, полученные данные содержат два столбца, содержащие значения NULL - «образование» и «предыдущий_год_рейтинг». Чтобы «очистить» эти столбцы в наборе данных, было применено простое, краткое и критическое мышление. Следовательно, согласно графику ниже, становится ясно, что не существует переменной, которая, как можно сказать, имеет выбросы, относящиеся к этому проекту. Причина этого предположения проиллюстрирована на этом изображении, которое показывает коробчатую диаграмму переменной «возраст». Этот график показывает нам, что есть выбросы в возрасте от 55 до 60 лет. Однако все мы знаем, что пенсионный возраст в некоторых странах составляет 60 лет, а не моложе; по крайней мере, это верно для Нигерии. Таким образом, мы действительно не можем сказать, что это выброс, поэтому мы должны включить все эти переменные.

Приведенный ниже «график» показывает, что наиболее густонаселенным отделом является «Продажи и маркетинг», в котором сосредоточено большинство сотрудников-мужчин. В то время как большинство сотрудников-женщин работают в отделе «Операции».

Приведенный ниже «график» показывает, что большинство продвинутых сотрудников имеют степень бакалавра. И результат является подтверждающим доказательством того, что этот обучающий набор данных является почти идеальным набором данных для этого проекта.

Обучение модели, оценка и проверка

Чтобы построить модель, мы использовали тепловую карту, чтобы проверить вклад каждой из переменных в продвижение потенциальных участников.

Очевидно, что ключевой показатель эффективности является основным определяющим фактором с уровнем вклада около 22%. Однако существует потенциальная опасность мультиколлинеарности из-за высокой корреляции между «возрастом» и «длиной_услуги», а также между «КПЭ» и «предыдущим_годовым_ рейтингом». Следовательно, сокращение окончательных допустимых характеристик с 12 до 10.

Итак, базовый классификатор CatBoost был обучен, давая значение отзыва 53%, что соответствует 446 ложным отрицательным результатам (FN) и 260 ложным положительным результатам (FP).
Но этот результат действительно не оправдал наших ожиданий. С вышеупомянутыми результатами, модель будет предсказывать, что продвижение по службе будет намного больше; что является компромиссом. Это сильно повлияет на компанию или фирму, принимающую это решение.

Следовательно, набор данных был дополнительно искажен с применением методов передискретизации и недостаточной выборки, но на этот раз с моделью классификатора случайного леса. Это привело к значению отзыва 65%, что соответствует 250FN и 456FP - результат на 50% лучше, чем предыдущий.

Развертывание модели

Имея готовую хорошую модель, Flask - фреймворк, построенный на python, был использован для развертывания модели на Heroku, чтобы делать прогнозы в реальном времени. Вот ссылка - Heroku: https://hr-analytics-classification.herokuapp.com, а на GitHub: https://github.com/Oladimeji-Williams/HRAnalyticsClassification.

Результаты

Как правило, компании, которые используют ключевой индекс эффективности (KPI) в качестве показателя для своих сотрудников, всегда серьезно относятся к этому индексу. Этот набор данных содержит переменную KPI, и поэтому мы ожидаем, что, если сотрудник не достигнет своего целевого KPI, его / ее не следует продвигать. Но, если он соответствует своему целевому KPI, а также другим параметрам, его следует продвинуть по службе. Это именно то, что предсказывала модель.

Заключение и рекомендация

Результат этого анализа показывает, что процесс определения того, будет ли потенциальный промоутер продвигаться по службе или нет, возможно, может быть выполнен с использованием знаний машинного обучения. А точность результатов во многом зависит от качества набора данных, вводимого в модель. Следовательно, чтобы добиться лучших результатов, для обучения модели следует использовать правильные и единственно правильные данные из документации компании.

Кроме того, для более быстрой работы с каждым человеком отдельные данные должны вызываться напрямую из базы данных. Таким образом, создается список сотрудников, которых следует продвигать только по службе.

Спасибо за чтение.

Члены команды

Оладимеджи Уильямс
Тайво Олуфунке Фашола
Олуйойин Эммануэль
Нмесо Эгвуэкве
Оладжувон Ойалуде
Эммануэль Ннамаека
Исраэль Оканлавон