Лично я считаю, что это очень интересная тема для разговора во время нынешней эпидемии COVID-19. Независимо от того, работаете ли вы дома или в офисе, все мы, вероятно, каждый день испытываем определенный уровень стресса и беспокойства. Всемирная организация здравоохранения указывает, что депрессия и тревога, от которых страдают 300 миллионов человек во всем мире, ежегодно обходятся мировой экономике в огромную потерю производительности в 1 триллион долларов. Я сам осознал, насколько психологическое благополучие влияет на мою продуктивность с тех пор, как начал работать на своей первой работе в прошлом году.

Эта статья призвана ответить на следующие вопросы:

  • На какие признаки следует обратить внимание работодателям, чтобы предложить больше поддержки психически больным работникам?
  • Сильно ли влияет пол на психическое здоровье?
  • Есть ли у людей, которые работают в сфере технологий / ИТ, больше шансов иметь психическое расстройство?

Методология

1. Данные

Получено исследование Психическое здоровье в технологиях на сайте Open Sourcing Mental Illness (OSMI).

Вопросы в опросе в основном касаются психического благополучия, демографической информации опрашиваемых и того, способствует ли рабочее место психическому благополучию или нет. Ниже приведены несколько примеров вопросов из анкеты:

  • Были ли у вас в прошлом расстройства психического здоровья?
  • Связана ли ваша основная роль в вашей компании с технологиями / ИТ?
  • Страдаете ли вы в настоящее время психическим расстройством?
  • У вас есть семейная история психических заболеваний?
  • Сколько сотрудников в вашей компании или организации?
  • Сколько вам лет?
  • Какого Вы пола?

Я буду использовать вопрос «Есть ли у вас в настоящее время психическое расстройство?» в качестве цели для прогноза.

2. Очистка данных

Хотя мой текущий набор данных не очень велик, я использовал Spark для очистки данных, на всякий случай, если я захочу масштабировать проект в будущем.

Объедините опросы: найдите общие вопросы в опросах за 2016–2019 годы и объедините наборы данных.

Категория «Другое»: сбросьте пустые значения и необоснованные ответы во вновь созданную категорию «Другое».

Групповые ответы: сгруппируйте ответы, которые имеют одинаковое значение, но написаны по-разному (например, «женский», «женский», «F» и «f»).

Фиктивные переменные: фиктивные мои категориальные особенности.

3. Выбор функций

Выбор функции выполняется путем вычисления важности каждой функции с использованием случайного леса. Я сохранил только те функции, которые имеют важность выше 0,01. Ниже приводится таблица некоторых выбранных мною функций:

4. Моделирование

Изначально я выбрал 5 разных моделей, включая XGBoost, SVC, AdaBoost, Random Forest и LightGBM, для обучения и согласования моих данных. После пары экспериментов я взял только 3 модели, которые лучше всего показали себя в F1-micro, для перекрестной проверки и настройки параметров. Ниже представлена ​​схема моего процесса моделирования:

Я анализирую производительность моей модели с помощью F1-micro, потому что это метрика прогнозирования нескольких классов, и она также хорошо работает с несбалансированным набором данных, который применим в моем случае. Я бы сказал, что SVC - моя лучшая модель из трех выбранных, потому что у нее меньше всего переоснащений.

Полученные результаты

Если мы посмотрим на матрицу путаницы, созданную SVC, и вычислим отзыв для каждого класса, мы увидим, что классы «Да» и «Может быть» имеют довольно высокие оценки в отзыве.

Причина, по которой я решил использовать отзыв для анализа моей модели, состоит в том, что я хочу, чтобы моя модель не предсказывала психически больных сотрудников, которые будут психически здоровыми. Более того, если мы посмотрим на класс «Да» в качестве примера, то увидим, что он запоминается на 98%. Это означает, что из 100 психически больных сотрудников моя модель может правильно предсказать, что 98 из них будут психически больными. Это хорошие новости!

Мы также могли бы посмотреть на график важности признаков, сделанный со случайным лесом, чтобы лучше интерпретировать модель.

Мои самые важные особенности: «Q14 Сколько вам лет?» И «Q11. Было ли у вас когда-нибудь диагностировано психическое расстройство? (Да)'. Чтобы глубже погрузиться в эти особенности, я построил график распределения по возрасту и психическим расстройствам, используя сотрудников, которые ответили «Да» или «Может быть» на мой целевой вопрос ниже.

Мы можем видеть, что люди, которые в настоящее время страдают психическим расстройством, обычно относятся к возрастной группе 25–40 лет и ранее страдали психическим расстройством.

Возвращаясь к графику важности функции, «Q5 Ваш пол?» И «Q21. Ваша основная роль в вашей компании связана с технологиями / ИТ?» Не кажутся важными характеристиками для моей модели. Как научный сотрудник женского пола, я рада услышать эту информацию!

Следующие шаги

Что касается будущих шагов, я хотел бы представить свою модель отделу кадров компаний. Я думаю, что моя модель могла бы помочь им легче выявлять психически больных сотрудников, чтобы получить дополнительную поддержку. Кроме того, я также хочу создать систему рекомендаций, чтобы рекомендовать терапевтические ресурсы сотрудникам, которые ответили «Да» или «Может быть» на мой целевой вопрос. Например, если я получу доступ к их домашнему адресу, я могу порекомендовать терапевта, который находится недалеко от их дома.

Для получения дополнительной информации, пожалуйста, свяжитесь со мной! Вы также можете просмотреть исходный код и колоду этого проекта на Github.