Машинное обучение и моделирование участия студентов Университета Дьюка в греческой жизни

Независимая новостная организация Университета Дьюка The Chronicle опубликовала статью под названием Является ли греческая жизнь при Герцоге столь же однородной, как вы думаете? 19 января 2018 г. В этой статье рассказывается о разнообразии и биографии студентов, участвующих в греческой жизни в университете, а также о том, как это распределение влияет на группы населения. Авторы Ликхита Бутчиреддигари и Джек Долгин в своей работе исследуют взаимосвязь между родным городом, специальностями университета, факторами средней школы и многим другим. Желанным побочным продуктом этой жесткой работы с данными является лицензированный MIT и общедоступный репозиторий GitHub со всеми собранными данными. Хотя существуют Избирательные Живые Группы, которые существуют за пределами греческой жизни, этот проект фокусируется только на греческом жизненном аспекте.

Цель и методология

Основываясь на усилиях по изучению социальных моделей в демографических группах выборочного проживания герцога (SLG), начатых авторами из The Chronicle, этот проект создает модель машинного обучения, которая пытается классифицировать данного студента как участие или неучастие в SLG в зависимости от различных факторов, касающихся жизни студента до зачисления в Университет Дьюка. Это упражнение разделено на четыре основных компонента: исследование данных, инженерия данных, построение модели и визуализация. Вся работа в этих компонентах была выполнена с использованием Python и нескольких библиотек и пакетов, включая, помимо прочего, scikit-learn, Matplotlib и pandas.

Исследование данных

Сами данные представляют собой набор из 16 категорий информации о каждом студенте в классе Университета Дьюка в 2018 году, в общей сложности 1739 наблюдений. Информация включает в себя участие каждого ученика в Греческом совете, местонахождение его родного города, различные демографические данные об их средней школе, личное участие в спорте и стипендии за заслуги. Для удобства чтения названия компонентов, включенные в эту статью, являются названиями, которые присутствуют в исходном наборе данных, опубликованном авторами в The Chronicle. Основным направлением и целью классификации этого проекта является столбец «Греческий совет», в котором участие студента в SLG указывается как «нет», «женское общество» или «братство». Первоначальные создатели этой тщательно подобранной версии набора данных приложили усилия, чтобы обезличить личную информацию учащихся, исключив конкретные названия средних школ. Кроме того, в данные не была включена информация о гендерной, этнической или иной самоидентификации, чтобы избежать посягательств на частную жизнь и предполагаемого контроля со стороны других меньшинств любого типа.

По мере изучения данных стало очевидно, что, хотя данные не содержат явных маркеров демографических характеристик на каждого студента, данные действительно содержат значительное количество функций, которые позволяют делать глубокие выводы и полезны не только для косвенного определения этих демографических характеристик, но и для их использования. используя их для разработки моделей и отображения разнообразия на вовлеченность. Менее очевидные закономерности и выводы являются фундаментом, на котором построены модели в этом проекте. Конкретные примеры, такие как «Бесплатное и сниженное количество учащихся в средней школе», «Государственная или частная средняя школа», «Стоимость обучения в средней школе» и «Домашняя или международная средняя школа», обеспечивают значимые показатели социально-экономического положения или социальной мобильности учащихся.

Инженерия данных

В основе каждого проекта лежит четко определенный объем и целевой вопрос, на который нужно ответить, или цель, которую он стремится достичь. Хотя исходный проект в The Chronicle был направлен на изучение и обсуждение разнообразия учащихся и того, как они вписываются в каждый конкретный раздел экосистемы SLG, этот проект имеет более узкую направленность, которая просто направлена на изучение и классификацию любое участие в греческой жизни. Именно эта суженная область определяла большинство решений при проектировании и выборе функций. Без узкоспециализированной информации о каждой отобранной группе проживания и личной информации о каждом студенте невозможно разработать модель, которая прогнозирует участие конкретной организации из-за широкого спектра факторов, таких как организации, обслуживающие определенные полы, специальности и профессии, культуры, или демография.

Чтобы ограничить эту суженную область в моем наборе данных, был скопирован исходный целевой столбец «Греческий совет», и его значения были перенесены в двоичную классификацию «Да» или «Нет», где «Да» - это любые записи, ранее помеченные как «Братство». или «Студенческое общество» и «Нет» - записи с «Нет» в качестве их значения. Сохраняя эту тенденцию корректировки значений с учетом отсутствия другой информации, функция «Спортивная команда» была скопирована и удалена из классификации «Мужчины» и «Женщины», оставив только спорт; однако как исходный столбец, так и функция без разделения были использованы при моделировании для изучения любых отклонений от ожидаемого среднего класса на основе гендерного разделения.

В начале процесса выбора функций для моделирования было обнаружено, что многие категории содержат либо избыточность, либо утечку данных. В исходном наборе данных, если студент был членом братства или женского общества, организация этого студента также была включена в отдельный столбец. Поскольку данные в столбце «Греческая организация» зависят от значения вовлеченности учащегося в целевой функции, данные, относящиеся к вовлеченности конкретной организации, были исключены из модели, чтобы избежать утечки данных. Если говорить о избыточности еще больше, у большинства студентов был указан родной город, штат и страна. Хотя они предоставили бы полезную статистику с точки зрения исследования данных и повествования, они были исключены в пользу «Широта родного города» и «Долгота родного города». Попытка включить эти три категории вместе с широтой и долготой будет не только избыточными данными, но также предотвратит проблемы с кодированием из-за того, что кодирование не обязательно поддерживает те же географические отношения, которые присущи уже численно выраженным координатам широты и долготы.

Построение модели

Были созданы три модели, чтобы отразить цель классификации участия данного учащегося. Первая созданная модель была простой базовой моделью класса большинства. После того, как целевая функция была преобразована в двоичную классификацию, значения для каждого класса были нормализованы, что привело к разделению классов на 65,7% / 34,3%, при этом участие SLG «Нет» было основным классом.

Затем RandomForestClassifier () scikit-learn был выбран в качестве предпочтительной древовидной модели из-за ее гибкости, упрощенного рабочего процесса с конвейерами и простых гиперпараметров, которые можно быстро настраивать. После нескольких раундов настройки гиперпараметров и перекрестной проверки модель случайного леса уступила базовому уровню большинства классов с точностью тестирования 68,4%.

Наконец, для линейной модели была выбрана линейная модель LogisticRegression () scikit-learn. В отличие от древовидной модели, линейная модель почти не имела проблем с точностью выше базовой отметки 65,7%. Всего за пару раундов тестирования точность проверки и оценки ROC-AUC превысили базовый уровень, и модель показала точность 71,0% на тестовом наборе, что является заметным улучшением. Хотя результаты двух моделей действительно означают победу над базовым уровнем, визуализации приносят несколько новых мыслей о том, что говорят данные.

Визуализации

Наиболее интересной визуализацией в этом проекте является матрица путаницы. Несмотря на то, что матрица путаницы не передает повествование модели, в отличие от важности характеристик или графика частичной зависимости, она многое говорит о том, с чем модель боролась.

Матрица неточностей классификатора случайного леса показывает заметно высокий уровень ложноотрицательных прогнозов, причем количество ложноотрицательных прогнозов почти вдвое больше, чем ложноположительных и истинно положительных прогнозов. С другой стороны, линейная модель демонстрирует значительно более высокий уровень ложноотрицательных результатов.

Линейная модель давала ложноотрицательные прогнозы в три раза чаще, чем ложноположительные и истинно положительные, вместе взятые, но она намного лучше правильно определяла истинно отрицательные. Вот где расхождение в точности двух моделей становится более интересным.

В рамках лесной модели очень важными считались обучение в средней школе, вероисповедание, общественный статус и статус интерната.

Линейная модель также ценила питание и обучение, но гораздо лучше относилась к спортивному кодированию и ценила его.

Заключение

Выводы исходной статьи The Chronicle находят широкое признание во всем наборе данных. Даже если рассматривать их в контексте тенденций всех учащихся, а не конкретных организаций, существует стойкая социально-экономическая и демографическая общность, которая отличает учащихся от участия в программе «Греческая жизнь». Хотя эти модели не могут ответить на все вопросы о том, что делает греческого студента в Университете Дьюка, они могут определить среднего студента в отобранной группе проживания.

Весь мой код и мои работы можно найти здесь:

tyleretheridge / Greek-Life-Modeling-Project
Этот репозиторий служит базой для моего проекта, целью которого является создание модели машинного обучения для прогнозирования Duke… github .com

Не стесняйтесь сообщать мне о любых комментариях или исправлениях!