Прогнозирование рисков страхования жизни с использованием алгоритмов машинного обучения - Часть I: Предварительная обработка данных и…

Алгоритмическое прогнозирование рисков для приложений страхования жизни с помощью алгоритмов контролируемого обучения - Бхарат, Дилан, Леони и Миндао (Джек)

В этой серии, состоящей из двух частей, мы опишем наш опыт работы с Набором данных пруденциального страхования жизни для прогнозирования риска приложений страхования жизни с использованием алгоритмов контролируемого обучения. Мы работали над этим набором данных в рамках нашего заключительного группового проекта в выпускном курсе по статистическому обучению, который мы прошли в Университете Ватерлоо, в котором мы воспроизвели результаты статьи и улучшили работу авторов.

Ссылка на репозиторий проекта на GitHub находится здесь, а ссылку на наше видео на YouTube вы можете найти здесь

Деловой контекст

Компании, которые подписывают полисы страхования жизни, должны тщательно оценивать заявки. Выплаты по претензиям по страхованию жизни очень высоки по сравнению со страховыми взносами, которые компании взимают с отдельного клиента. Например, человек, который покупает план на 40 лет с гарантированной суммой в 500 долларов в год, будет платить 20 000 долларов в течение 40 лет, но в случае возникновения претензии страховая компания должна будет выплатить 1 миллион долларов США. иждивенцы этого человека. Таким образом, компания должна избирательно подходить к людям, которых она выбирает застраховать, чтобы поддерживать финансовую жизнеспособность своего бизнеса.

Традиционно компании использовали актуарные таблицы, которые предполагают применение подробных основанных на правилах процедур для квалификации заявки на страхование жизни. Некоторые из этих правил основаны на формулах, а другие - на практике. Эти правила включают в себя богатый опыт, накопленный актуариями с течением времени при оценке заявок, и поэтому в целом являются точными. Обратной стороной является то, что они включают в себя множество ручных задач, таких как сбор информации и субъективная оценка различных аспектов приложения. Для подачи заявления на страхование жизни нередко уходит больше месяца с даты подачи заявления.

Исследователи применили методы машинного обучения для выполнения прогнозной аналитики и автоматизации процесса оценки заявок на страхование жизни. Основная идея здесь заключается в том, что оценка приложения по страхованию жизни - это проблема контролируемого обучения. Здесь приложение рассматривается как точка данных, столбцы данных, предоставленные кандидатом, являются характеристиками этой точки данных, а рейтинг риска кандидата - это результат, который мы пытаемся предсказать.

Таким образом, бизнес-контекст этой проблемы науки о данных состоит в том, что мы стремимся значительно сократить время обработки, связанное с выдачей заявки на страхование жизни, и сократить расходы компании за счет большей автоматизации, обеспечивая при этом точность оценки рисков.

Описание набора данных

Набор данных Prudential Life Insurance состоит из информации из 59 381 заявки на страхование жизни и рейтинга риска, присвоенного этим заявкам компанией. Каждое приложение состоит из 126 функций, которые могут быть непрерывными, дискретными или категориальными. В таблице ниже показаны названия функций и дано краткое описание того, что они представляют:

Характеристики, которые являются категориальными, непрерывными и дискретными, были упомянуты в ссылке на набор данных здесь. В этом контексте мы используем слова особенности и переменные как синонимы.

Возможности в целом можно разделить на следующие категории:

Медицинская информация - сюда входит история болезни, рост, возраст, вес, ИМТ и наличие каких-либо заболеваний.
Семейный анамнез - хотя не упоминается, что означает этот термин, он может включать переменные, указывающие на семейное положение, количество детей и т. Д.
История страхования - Опять же, здесь явно не указано, что подразумевает этот набор функций, но это может означать, было ли лицо застраховано ранее, пропускал ли кто-либо взносы в прошлом, уровень страхового покрытия и т. Д.
Личная информация: эта категория может включать статус занятости, тип занятия, шкалу заработной платы, трудовой стаж, а также такую информацию, как уровень безопасности PIN-кода проживания, владение автомобилем, рейтинг водителя среди другой такой информации, которая может иметь отношение к решения по страхованию жизни.
Информация о продукте: это информация о продукте. Таким образом, это может означать такие вещи, как гарантированная сумма, продолжительность плана, является ли оплата единовременной или поэтапной, среди прочего. Может быть не сразу очевидно, как характеристики продукта могут повлиять на рейтинг риска заявителя. Возможно, заявители, выбравшие краткосрочный план на срок, скажем, 10 лет (который считается коротким в контексте страхования жизни), могут рассматриваться компанией как высокорисковые и классифицироваться как таковые.

Есть 60 категориальных, 48 фиктивных, 13 непрерывных и 5 дискретных функций, составляющих в общей сложности 126 переменных. Отклик или выходная переменная - это рейтинг риска, который имеет 8 уровней - от 1 до 8, где 1 - самый низкий, а 8 - самый высокий рейтинг риска.

Работа с отсутствующими значениями

Было 9 функций, по которым отсутствовало более 30% данных. Эти функции показаны в таблице ниже:

Мы удалили эти функции из набора данных.

Было 4 функции, у которых отсутствовали значения от 0,03% до 18,28%. Они показаны в таблице ниже.

Не все отсутствующие значения созданы одинаково. Может быть множество причин, по которым данные могут отсутствовать, и в зависимости от того, почему они могут отсутствовать, отсутствующие данные можно разделить на три категории:

Отсутствуют полностью случайным образом (MCAR): когда данные отсутствуют полностью случайным образом, вероятность того, что каждая точка данных отсутствует в наборе данных, одинакова. Допустим, мы измеряем температуру окружающего воздуха каждые 15 минут с 8:00 до 12:00. Итак, если бы все прошло хорошо, у нас было бы 17 измерений, выполненных в 8, 8: 15,8: 30… .. и так далее до 11:45 и 12. Теперь давайте предположим, что произошло отключение питания на некоторое время. час между 8:55 и 9:35, и в результате у нас нет измерений для 9, 9: 15 и 9:30. Электроэнергия могла отключиться в любой момент, и поэтому с равной вероятностью может отсутствовать любая из 17 точек данных. Нет никаких особых причин предполагать, что измерения в эти моменты времени с большей вероятностью будут отсутствовать, чем в другие моменты времени. Поэтому считается, что такие пропущенные значения отсутствуют полностью случайно.

Случайно отсутствует (MAR): Предположим, в районе, где проводятся измерения, проводятся ремонтные работы по электрооборудованию. Как правило, техники выполняют ремонтные работы с 8 до 10 часов, а ремонтные работы займут неделю. Ожидается, что в течение этого двухчасового периода каждый день будет отключаться электричество примерно на 30 минут. В этой ситуации мы обнаружим, что есть две категории измерений - измерения, сделанные в интервале времени с 8 до 10 часов утра, и измерения, выполненные в интервале времени с 10 часов утра до 12 часов дня. В первом классе будет отсутствовать больше данных, чем во втором. Однако в этом классе одинаково вероятно, что любая точка данных будет отсутствовать. Другими словами, в то время как мы собираемся увидеть меньше измерений между 8–10 утра, чем 10–12 полдень, в интервале времени 8–10 утра будут наблюдаться 8:15, 8:45, 9:15 и 9:45. с равной вероятностью будут отсутствовать, поскольку получасовой интервал отключения электроэнергии является случайным в пределах временного интервала 8–10 AM. Считается, что такие пропущенные значения отсутствуют совершенно случайно.

Отсутствует не случайно (MNAR): предположим, что в этом районе нет отключения электроэнергии, и измерения проводятся в течение 5 лет. Срок службы оборудования 5 лет. По мере старения оборудование начинает чаще пропускать регистрируемые значения, особенно через 3 года. Допустим, исследователю не известно об этой проблеме с оборудованием. Он заметит, что через 3 года пропадает больше значений, чем раньше. В то же время допустим, что окружающая среда со временем становится теплее. Таким образом, погода будет более жаркой в течение 3 лет и более. Теперь исследователь не будет знать, пропустило ли оборудование запись этих значений из-за более высокой температуры или значения пропали из-за старения оборудования. С такими пропущенными значениями трудно справиться, и они известны как отсутствующие не случайно.

Чтобы проверить, соответствуют ли данные MCAR, существует тест, известный как Тест Литтла, который может быть реализован на R. Вот код для выполнения теста:

Мы получили значение p меньше 0,05, что означает, что данные не являются MCAR. Альтернативными механизмами могут быть MAR или MNAR.

График трех верхних переменных с пропущенными значениями показан ниже:

На этом этапе мы сделали предположение, что недостающие данные - это MAR, основываясь на кажущемся случайным распределении отсутствующих переменных из рисунка, показанного выше.

Следующим логическим шагом будет вменение недостающих значений, для которых мы использовали метод MICE. Метод MICE работает, обрабатывая неизвестные значения как зависимые переменные, которые затем вменяются с использованием контролируемого алгоритма, такого как множественная линейная регрессия, для данных, которые уже известны в наборе данных. Это итерационный метод, который может быть настроен либо на сходимость после фиксированного количества итераций, либо когда значения ошибок падают ниже порогового значения. Вот красивое видео, объясняющее, как работает метод MICE: Интуиция метода MICE

У R есть пакет для выполнения MICE, и вот код:

После выполнения MICE у нас есть полный набор данных, на котором мы можем выполнить исследовательский анализ данных (EDA), чтобы увидеть предварительные тенденции в данных.

EDA

Мы выполнили два типа EDA - одномерный и двумерный.

Одномерный EDA: для непрерывных переменных, таких как рост, вес, ИМТ и возраст, одномерные графики EDA показывают распределения вероятностей этих переменных в наборе данных. Графики показаны на рисунке ниже:

Мы наблюдаем, что рост смещен влево, тогда как вес и ИМТ наклонены вправо. Возраст имеет широкое максимальное плато посередине. Это ожидается, поскольку люди в возрастной группе, скажем, 30–50 лет, чаще всего будут оформлять полисы страхования жизни.

Среднее значение, медиана, стандартное отклонение и межквартильный диапазон этих 4 переменных показаны на графике ниже:

Стандартные отклонения невелики по отношению к среднему / медианному значению для всех переменных, кроме возраста (который, как мы обсуждали, имеет широкое среднее плато), что указывает на узкое распределение этих переменных.

Большинство переменных в наборе данных категориальны. Вот несколько графиков для таких переменных:

Несколько замечаний о категориальных переменных:

Большинство категориальных переменных имеют 2 или 3 уровня, например История страхования1.
Некоторые категории имеют намного больше уровней: информация о страховании 3 имеет 11 уровней, информация о занятости 2 - 38 уровней, а история болезни 2 - 648 уровней.

Если у категориальных переменных есть несколько уровней, которые не обязательно являются порядковыми, необходимо использовать такие методы, как быстрое кодирование, чтобы преобразовать их для использования в качестве входных данных для алгоритмов контролируемого обучения.

Частотный график переменной ответа (уровень риска) показан ниже:

Уровень 8 имеет довольно высокий процент (~ 33,3%). Когда количество переменных ответа не равномерно распределено между уровнями, такая ситуация называется несбалансированными данными. Не каждый алгоритм классификации хорошо подходит для работы с несбалансированными данными, и мы должны использовать те, которые могут справиться с этой ситуацией.

Двумерный EDA. В двумерном EDA мы проверяем влияние двух факторов / переменных на распределение данных.

Из двумерного анализа можно сделать следующие выводы:

Возраст оказывает существенное влияние на уровень риска, особенно для самого высокого уровня риска 8. Людей моложе и старше, относящихся к группе самого высокого риска, намного больше.
Распределение высоты для разных уровней риска, кажется, следует той же схеме с максимальным подсчетом, происходящим между 0,7 и 0,8, и это согласуется с общим распределением высоты, которое мы наблюдали в одномерном анализе. Таким образом, рост, похоже, не оказывает значительного влияния на уровни риска.
Распределение веса для людей с наивысшим уровнем риска такое же, как и общее распределение веса, при этом значения близко распределяются вокруг пика, который находится между 0,2 и 0,3.
ИМТ для всех уровней риска, по-видимому, сосредоточен в районе медианы 0,4–0,6. Значительно больше выбросов в уровнях риска 6,7,8, а также 1. Кажется, что, хотя высокий ИМТ может означать либо высокий, либо низкий риск, низкий ИМТ действительно указывает на высокий риск.

Код, который мы использовали для выполнения EDA, можно найти здесь.

Уменьшение размерности

Даже после удаления столбцов, в которых отсутствует более 30% данных, остается 121 атрибут. Помимо вычислительной сложности, может случиться так, что некоторые из этих атрибутов могут не содержать информации, которая важна для прогнозирования уровней риска и в то же время.

Итак, мы использовали два метода уменьшения размерности, чтобы уменьшить количество измерений и в то же время не потерять много полезной информации в наборе данных. Теперь мы опишем эти два метода - CFS и PCA.

Выбор характеристик на основе корреляции (CFS)

CFS выбирает элементы из исходного набора функций на основании того принципа, что функции в выбранном подмножестве должны хорошо коррелировать с выходными данными, но не должны хорошо коррелировать друг с другом. Алгоритм CFS выбирает k функций из исходного набора функций, а затем вычисляет оценку качества на основе формулы, показанной ниже:

Числитель состоит из суммы корреляций функций в наборе функций с выходной переменной, обозначенной здесь "c". Таким образом, чем выше эта сумма, тем выше будет оценка за этот набор функций. В знаменателе мы видим член, который представляет собой сумму произведений корреляций, взятых по два за раз. Таким образом, чем выше корреляция между функциями в этом наборе, тем ниже будет оценка качества. Целью метода CFS является ранжирование наборов выбранных функций, а затем выбор набора функций, имеющих наивысший ранг.

Среда Waikato для анализа знаний, известная как WEKA, - это бесплатное программное обеспечение для интеллектуального анализа данных, распространяемое по лицензии GNU General Public License. Его можно использовать для выполнения таких методов сокращения данных, как PCA и CFS. Для выполнения CFS мы выбираем Best First Method и оценщик CFSSubsetEval. CFS сам выбирает количество атрибутов.

Результаты прогона CFS WEKA показаны на рисунке ниже:

Здесь следует отметить, что заслуга лучшего подмножества составляет 0,514, и алгоритм выбрал 33 атрибута. Эти атрибуты перечислены в окне вывода WEKA, и некоторые из них - это возраст, индекс массы тела, история болезни_4 и т. Д.

Анализ основных компонентов (PCA)

PCA - это хорошо известный алгоритм уменьшения размерности, и интуиция и теория, лежащие в основе PCA, хорошо объясняются в этом посте.

Мы загрузили необработанный набор данных в WEKA и использовали настройки по умолчанию для выбора функций PCA. Мера вариации, зафиксированная переменной PCA, обозначена ее стандартным отклонением, как показано маленьким кружком справа на рисунке, показанном ниже:

Чем выше значение StDev, тем больше вариация, фиксируемая этой переменной. Функция PCA, получившая 1-е место по версии WEKA, имеет стандартное отклонение 2,451. Мы выбрали все объекты, которые охватывают не менее 50% этого максимального значения стандартного отклонения, то есть до 20-го объекта, который имеет стандартное отклонение 1,247.

Мы использовали два метода уменьшения размерности, чтобы сравнить, как работают алгоритмы машинного обучения с этими двумя методами, и выбрали комбинацию метода уменьшения размерности и алгоритма, который дает наилучшие результаты для нашего набора данных.

В части 2 мы опишем алгоритмы обучения, которые мы применили к результирующему набору данных после уменьшения размерности, и подведем итог с результатами и объемом для дальнейшей работы.

[1]: Boodhun, N., Jayabalan, M. Прогнозирование рисков в индустрии страхования жизни с использованием алгоритмов контролируемого обучения. Комплексный интеллект. Систем. 4, 145–154 (2018). Https://doi.org/10.1007/s40747-018-0072-1

Прогнозирование рисков страхования жизни с использованием алгоритмов машинного обучения - Часть I: Предварительная обработка данных и…

Алгоритмическое прогнозирование рисков для приложений страхования жизни с помощью алгоритмов контролируемого обучения - Бхарат, Дилан, Леони и Миндао (Джек)

Вопросы по теме