Как снизить кредитный риск с помощью передовых методов машинного обучения

Тенденции цифровизации VALOORES продолжают формировать мир, открывая новые возможности в широком спектре секторов. Искусственный интеллект считается ключевым фактором цифровой трансформации, который может открыть новые источники роста. Последние достижения в области машинного обучения и автоматизации создали совершенно новую бизнес-экосистему.

Введение и бизнес-потребности

Анализ вероятности дефолта является одной из основных задач, которые должны выполняться финансовыми учреждениями, где важно оценить вероятность дефолта заемщика до предоставления определенной ссуды. Отсутствие правильной методологии для расчета этой вероятности может привести к большим убыткам, создать системный риск и повлиять на всю экономику финансового учреждения. Точное прогнозирование риска дефолта при кредитовании было критически важным вопросом для банков и других кредиторов, но доступность данных из открытых источников и больших наборов данных, а также достижения в области вычислительной и алгоритмической аналитики данных возобновили интерес к этой задаче прогнозирования рисков.

Целью этой работы является построение модели машинного обучения, используемой для прогнозирования вероятности дефолта, на основе личной информации и предоставленной ссуды, а также большого количества факторов, которые могут повлиять на уровень дефолта заемщика. Полученные результаты предназначены для использования финансовыми учреждениями в качестве справочного инструмента, который поможет им принимать правильные решения, снижающие риск дефолта и максимизирующие прибыль.

О наборе данных и анализе данных

Справедливо сказать, что все мы ощутили значительный прогресс данных, произошедший за последнее десятилетие. Данные стали топливом 21 века, используемым для удовлетворения требований бизнеса.

Набор данных по необеспеченным кредитам, предоставленный компанией LendingClub, включает 844000 ссуд с истекшим сроком, выданных в период с 2012 по 2015 год, с пометкой «Полностью выплачено» или «Списано (по умолчанию)», включая финансовые данные ссуды и личные данные заемщика.

а. Очистка и предварительная обработка пояснительных переменных

После применения уменьшения размерности к 144 переменным набора данных окончательный выбор оставшихся 26 функций показывает:

Данные, относящиеся к ссуде
· Процентная ставка
· Срок: запланированный срок погашения ссуды
· Цель: консолидация долга, кредитная карта, ремонт дома, МСП или другое
· Оценка: уровень риска, установленный LendingClub (A, B, C, D, E, F, G)

Данные, относящиеся к заемщику
· Продолжительность работы в годах
· О банкротстве, о котором сообщается публично
· Владение недвижимостью: ипотека, аренда или владение
· Долг к доходу соотношение = заявленные долги / заявленные доходы

Сгенерированные коэффициенты
· Количество месяцев с момента открытия первой кредитной линии
· Коэффициент открытых счетов = количество открытых счетов / общее количество счетов

Самая важная часть при работе с любым набором данных - это очистка и предварительная обработка данных. В качестве первого шага нулевые значения числовых и категориальных переменных были заменены, соответственно, медианой и режимом их доступных значений. Второй шаг будет иметь дело с категориальными переменными, которые не поддерживаются нашими моделями. Мы связали числовое значение с каждой категорией на основе рейтинга по умолчанию. Для домовладения три категории: ипотека (17,6%), аренда (23,1%) и собственная ( 20,1%), были заменены на 3, 1 и 2 соответственно.

б. Описательная аналитика

Прежде чем переходить к прогнозным моделям, всегда интересно провести некоторую статистику, чтобы иметь глобальное представление о имеющихся данных.
Первый вопрос, который приходит на ум, касается ставки по умолчанию. Для используемого набора данных мы находим высокий уровень дефолта в 20,3% по сравнению с обычным портфелем при нормальных обстоятельствах (5–10%). Рискованные портфели обычно оборачиваются высокими процентными ставками, которые показаны на рисунке 1.

Углубившись в набор данных (рис. 2), мы обнаружили, что 62,4% всей инвестированной суммы было заимствовано для целей консолидации долга, что увеличивает портфель «мусорных кредитов».

Кроме того, собственность заемщика на жилье является хорошим показателем способности выплатить долг без дефолта (рис. 3).

Система классификации LendingClub классифицирует ссуды по уровню риска от A (низкий риск) до G (высокий риск). На рисунке 4 показано изменение показателей дефолта по отношению к среднегодовым доходам заемщиков в зависимости от рейтинга компании.

c. Оценка мультиколлинеарности

Мультиколлинеарность в основном вызвана включением переменной, которая вычисляется из других переменных в наборе данных. Это затрудняет точную оценку коэффициента регрессии и снижает статистическую мощность применяемой модели. Мультиколлинеарность может быть обнаружена с помощью коэффициента увеличения дисперсии (VIF), количественно определяющего, насколько раздута дисперсия.

K-й предиктор VIF, равный 1, указывает на отсутствие корреляции между этой переменной и остальными предикторными переменными. Общее эмпирическое правило предполагает умеренную корреляцию для VIF от 1 до 5, в то время как VIF, превышающий 5, являются критическими уровнями мультиколлинеарности, где коэффициенты плохо оценены, а p-значения сомнительны. На основе VIF переменных, финансовых знаний и описания данных мы удалили переменные sub-grade и процентная ставка .

О моделях машинного обучения

Чтобы предсказать вероятность дефолта и снизить кредитный риск, мы применили две модели машинного обучения с учителем от двух разных поколений.

Как мы все знаем, когда задача состоит из предсказания вероятности или проблемы бинарной классификации, наиболее часто используемой моделью в индустрии кредитного скоринга является Логистическая регрессия. Это регрессия, которая преобразует выходные данные Y ∈ ℝ линейной регрессии в пропорцию p ∈] 0,1 [, применив сигмовидную функцию.

Хотя логистическая регрессия не может обнаружить нелинейные закономерности, необходимы более продвинутые методы машинного обучения.

Extreme Gradient Boost, известная как XGBoost, на данный момент является одним из наиболее рекомендуемых предикторов для кредитного скоринга. Это королева машинного обучения с учителем, которая обуздает нынешнюю эпоху. XGBoost - это метод ансамбля, который применяет технику повышения к слабым ученикам (деревьям решений), чтобы оптимизировать их производительность.

Разработка и сравнение моделей

а. Рабочий процесс

На рисунке ниже представлен рабочий процесс контролируемого машинного обучения, которому мы следовали, от исходного набора данных до обучения и проверки модели. Для применения этого рабочего процесса использовался Python, поскольку это один из самых эффективных языков программирования для науки о данных и машинного обучения.

б. Проверка и сравнение

Сравнительные исследования рекомендуют использовать по крайней мере три показателя эффективности для оценки моделей кредитного скоринга, а именно ROC AUC и метрики, рассчитанные на основе матрицы путаницы (т.е. точность, отзывчивость, оценка f1…).

Основываясь на результатах, показанных в Таблице 1, и на матрицах путаницы каждой модели (Рис.8), обе модели показали хорошие результаты на тестовом наборе данных. XGBoost, кажется, превосходит логистическую регрессию по большинству выбранных показателей. На первый взгляд, многие сочтут это несущественной разницей между двумя моделями; это имело бы смысл, если бы это была проблема классификации яблок / апельсинов. Однако в случае проблемы кредитного скоринга любое повышение производительности позволит избежать огромных потерь для инвесторов, особенно в портфеле на 11 миллиардов долларов, где снижение на 0,1% приведет к убыткам в миллионы долларов.

Заключение и ориентация на будущее

В этой статье нам удалось обучить и сравнить результаты двух хорошо работающих моделей машинного обучения, хотя моделирование вероятности дефолта всегда считалось проблемой для финансовых учреждений. Для дальнейшего улучшения этой работы важно интерпретировать полученные результаты, которые определят основные движущие факторы для анализа кредитного дефолта. Заключительными этапами этого проекта являются развертывание модели и мониторинг ее производительности при обнаружении новых рекордов.

Чтобы узнать о нас больше, посетите наш сайт.

Думай масштабно, двигайся быстро!