Машинное обучение для прогнозирования развода (брачная история для ботаников)

Yöntem et. al (2019) из Турции недавно опубликовал статью Прогнозирование разводов с использованием выбора функций на основе корреляции и искусственных нейронных сетей. Это исследование турецких пар и выяснения того, остались ли они в браке или разведены, было основано на принципах терапии пар Готтмана. На приведенном выше рисунке показаны некоторые принципы GCT. Например, создание общего смысла, управление конфликтами, обращение к, а не прочь - все эти принципы являются составными частями успешных и прочных отношений, и 54 вопроса разработаны специально для того, чтобы определить, где находятся пары в отношении к этим конкретным размерам.

Например, вопрос 33 гласит: Я могу использовать негативные высказывания о личности моего супруга во время наших обсуждений. Затем ответ на этот вопрос будет дан по шкале от 0 до 4, где 4 означает полностью согласен.

Набор данных общедоступен в UCI. В этом посте я покажу вам некоторые результаты моего анализа этого набора данных с использованием алгоритма CatBoost, который я выбрал, потому что 1. алгоритмы повышения реализуются и настраиваются быстрее, чем нейронные сети, и 2. Сильной стороной CatBoost являются категориальные особенности , и вы можете рассматривать шкалу Лайкерта как категориальный признак.

Авторы пытались создать и оптимизировать два типа моделей: в одном они использовали все функции, а в другом они пытались найти более экономную и эффективную модель, используя подмножество из 6 функций. Я попытался сделать то же самое, просто используя другой метод.

ОСОБЕННОСТИ: для этих экспериментов я не настраивал многие гиперпараметры и не пытался выполнять поиск по сетке. Я использовал классификатор в основном в готовом виде.

Авторам удалось добиться общей точности ~ 98%. Когда дело дошло до использования более экономной модели, они выбрали следующие 6 максимально релевантных и минимально повторяющихся функций, упорядоченных по значимости.

Например, вопрос 2: Я знаю, что мы можем игнорировать наши разногласия, даже если иногда возникают трудности.

Вопрос 6 гласит: У нас нет времени дома в качестве партнеров.

РЕЗУЛЬТАТЫ

Я использовал 5-кратную перекрестную проверку и оценил соответствующий классификатор, чтобы увидеть, насколько точной была модель, а также какие функции были важны. Результаты представлены в таблице 1.

Вы можете видеть, что одни вопросы, как правило, появляются чаще, чем другие - например, вопросы 18 и 20, оба из которых появляются в каждом сгибе. Аналогичным образом, вопрос 40 появляется в 4 из 5 моделей.

Затем я обучил CatBoost и построил модель на основе всего набора данных с результатами в таблице 2.

Вот 3 самых важных вопроса из приведенной выше таблицы:

Вопрос 20: Мы с супругом разделяем доверительные отношения.

Вопрос 18: у нас с супругой схожие представления о том, каким должен быть брак.

Вопрос 36: Я могу унизить, когда мы обсуждаем.

Конечно, здесь мы показываем вам только 6 лучших - классификатор был обучен с использованием всех функций, даже несмотря на то, что нет сомнений в некоторой корреляции между многими вопросами. Есть ли у нас способ создать экономную модель, которая пытается максимизировать релевантность для прогнозирования цели при минимальной внутренней избыточности?

В CatBoost есть функция, которая выполняет эту работу: model_reg_size. Это сократит количество функций, но не гарантирует, что выбранный набор функций будет оптимальным в смысле минимальной избыточности и максимальной релевантности. Тем не менее поучительно посмотреть, что дает алгоритм. Вот код:

cat = CatBoostClassifier(iterations = 300, cat_features = feats,
model_size_reg = 3, verbose = False, eval_metric = "Logloss")

Вы должны немного поиграть с model_size_reg, но на этом наборе данных я пробовал все от 1e-2 до 10 и обнаружил, что выбор значения ~ 3 приведет к примерно 6 ненулевым функциям. 6 выбранных характеристик показаны в таблице 3, а матрица неточностей на основе обученного классификатора показана в таблице 4. Модель обеспечивает довольно высокий уровень точности и точности.

Судя по таблице, вопрос 19 кажется гораздо более важным, чем остальные. Так что же снова за вопрос 19?

Вопрос 19: У нас с супругой схожие представления о том, какими должны быть роли в браке.

Интересно - и неудивительно, что пары из двух групп ответили на этот вопрос совершенно по-разному.

Это означает, что когда у пары возникают проблемы - или, в идеале, до того, как такие проблемы возникают - вы должны убедиться, что вы оба действительно находитесь на одной странице, когда дело касается ролей. Проблема в том, что роли могут быть нечеткими и неопределенными, а язык, который мы используем, расплывчатым и двусмысленным. Некоторые из них происходят от наших родителей, сознательно или нет. Предположим, что «кормилец» - одна из многих ролей, которые вы и ваш партнер ожидаете от вас. В количественном отношении, какую долю домашних расходов должен оплачивать «кормилец» - 100%? 80%? Две трети? Сколько времени это займет, и исключает ли это выполнение некоторых других ролей, которые, как мы ожидаем, будут играть наши партнеры, - и является ли это причиной того, что некоторые браки разваливаются и распадаются?

Машинное обучение для прогнозирования развода (брачная история для ботаников)

Вопрос 19: У нас с супругой схожие представления о том, какими должны быть роли в браке.

Вопросы по теме