Высшая школа сложна на многих уровнях: технически, физически и, конечно же, эмоционально. Программы по всей стране побуждают студентов уделять своему психическому здоровью не меньше внимания, чем физическому.

Данные, функции и цель

Существует множество теорий о том, почему аспиранты недовольны — посетите практически любой бар в студенческом городке, чтобы услышать некоторые из них. Исследователи из Nature (главный научный журнал) собирали данные за последние несколько лет путем опроса аспирантов по всему миру, чтобы получить более строгий ответ. В их опросе 2019 года 6812 респондентов ответили на вопросы, начиная от их мотивации и ожиданий от аспирантуры до их опыта в программе и за ее пределами. Я нацелился на вопрос 28 опроса, чтобы предсказать, был ли аспирант обращался ли когда-нибудь за помощью в связи с беспокойством или депрессией во время своей программы.

Базовое предположение

Среди 6 512 аспирантов, ответивших на целевой вопрос, 37,2% (62,8% исходного уровня) сказали, что обращались за помощью в связи с беспокойством или депрессией. Я подумал, что среди вопросов могут быть некоторые важные предикторы: чувствовали ли они себя запуганными, возраст или насколько велика была их рабочая нагрузка.

Глядя на это с точки зрения логистики

Я перешел от базового предположения к линейной модели. Я использовал модель логистической классификации, чтобы предсказать, будет ли аспирант обращаться за помощью во время своей программы. После вменения и кодирования функций логистическая регрессия предсказала цель с показателем точности 68,5% в проверочном наборе.

Может ли древовидный подход работать лучше?

Логистическая модель уже улучшила точность нашего базового прогноза почти на 7%. Модель случайного леса дала аналогичную модель качества; точность этой модели на проверочном наборе составила 69,1%. Переход на модель xgboost не сильно изменил нашу точность проверки (67,4%). Используя наш тестовый набор, мы получили аналогичный показатель точности 68,6%, используя модель xgboost.

Мы можем начать интерпретировать модель xgboost с матрицы путаницы. Все модели, которые я использовал, оценивались по показателю точности. Тем не менее, я хотел бы изучить отзыв в будущем. Лучшее запоминание не позволит нам пропустить учеников, которым может понадобиться помощь, но наша модель ошибочно предсказывает, что это не так (ложноотрицательный результат).

Важные предикторы

В моем предыдущем посте, посвященном этому опросу, я исследовал, влияет ли время общения с консультантом один на один и рабочая нагрузка на частоту обращений за помощью. Модель xgboost может сделать что-то подобное и вычислить важность перестановки для всех вопросов.

Первоначально я думал, что возраст или чувство запугивания будут важными предикторами того, обратится ли студент за помощью по поводу беспокойства или депрессии. Но, исходя из этой древовидной модели, издевательства, домогательства и пол играли самую большую роль. Интересно, как эти три функции могут быть связаны на самом деле. Сколько из этих людей подвергаются преследованиям, дискриминации или издевательствам из-за своего пола? Мои первоначальные теории о том, что аспекты школьного образования могут быть самыми важными факторами, кажутся неподтвержденными. Вместо этого, возможно, социальные отношения лежат в основе беспокойства и депрессии в аспирантуре.

Пример случая

В качестве примера давайте посмотрим на ученика № 39. Согласно модели xgboost, предполагается, что ученик № 39 обратится за помощью. И, судя по их ответам на опрос, они действительно обратились за помощью. Так что же подсказало нашу модель в этом случае? В случае с этим человеком Какого пола? (#57) и где вы сейчас живете? (#5) были самыми важными ответами, подтолкнувшими модель к да, в то время как насколько вы удовлетворены своей кандидатской диссертацией Опыт(#19.a) был самой большой силой модели в отношении нет.

Выводы

Модель, предсказывающая, будет ли учащийся обращаться за помощью в связи с беспокойством или депрессией, будет полезна для организаций психического здоровья или школ. Было бы упреждающим обращением или предоставлением информации тем, кого модель помечает. В худшем случае вы предоставите информацию, которая может оказаться полезной в будущем, тем, кто может не обратиться за помощью. В лучшем случае это помощь тем, кто не хочет обращаться за помощью. В лучшей модели мы смогли предсказать, обратится ли аспирант за помощью с тревогой и депрессией с точностью 68,6%.

Чтобы получить дополнительную информацию и представление об этом наборе данных, ознакомьтесь с исходной статьей Доктора наук: мучительная правда. Вы можете просмотреть исходный код и методы на моем github.