Применяя свои знания о контролируемом машинном обучении, я хотел знать, как я могу использовать его для быстрой отдачи, и подумал, что Lending Club будет хорошим местом для начала.

Сравнивая «безопасные» инвестиционные продукты с доходностью от 3% до 7% в 2018 году и значительными капитальными затратами, Lending Club, одноранговая кредитная компания в США, основанная в 2006 году, позволяет инвесторам выбирать необеспеченные займы, в которые они хотят вложить деньги. , с платой за обслуживание. Он предлагает доходность от 6,5% до 28,8% при затратах от 25 долларов.

Цели

Мое обследование было направлено на выявление:

  1. Какой вид кредита наиболее надежен?
  2. Как я могу использовать машинное обучение, чтобы сделать мои инвестиции в Lending Club более надежными?

Я получил данные Lending Club по кредитам, выданным в период с 2007 по 2015 год от Kaggle. Этот исходный набор данных содержит более миллиона строк (1 048 575, если быть точным) и 145 столбцов. Я определенно ценю прилагаемый Словарь, в котором продумано четкое описание каждой колонки.

На основе этого исходного набора данных с упором на ссуды от индивидуальных заемщиков и за исключением тех, источники дохода которых не проверены, данные значительно сократились до 642 тыс. Строк. Я также отфильтровал текущие ссуды, предпочитая ошибиться из соображений осторожности, чтобы избежать вероятности того, что текущие ссуды могут по-прежнему дефолт в более поздний срок, и удалил строки с пустыми ячейками. Это существенно сократило ссуды вдвое до 310 тысяч, что составляет треть от того, с чего мы начинали. Давайте сравним две группы.

Для индивидуальных и проверенных ссуд это распределение статуса ссуды:

Для простоты сравнения я осторожно / строго определил частично погашенные ссуды, которые были списаны, просрочены, в льготный период и дефолт, как «дефолт». Вот как выглядит распределение для сокращенного набора данных (то есть без текущих займов). Поскольку большинство кредитов полностью погашены, это говорит о том, что вероятность получения полной ожидаемой прибыли составляет более 50%.

Интересный факт

Консолидация долга - основная причина, по которой люди обратились в Lending Club. Интересно, что из сокращенного набора данных заемщики разделяли одни и те же мотивации, практически отражая одно и то же распределение!

Сравнение Полностью выплаченных и дефолтных показывает, что наблюдаемые ранее закономерности продолжают сохраняться; Это означает, что не существует единственной цели, более безопасной, чем другие.

Хотя цель не является полезным индикатором, безусловно, должны быть другие индикаторы. Давайте их откроем.

Выбор параметров

Из 145 столбцов я выбрал 18 столбцов, которые, как мне кажется, могут повлиять на статус ссуды.

Я также добавил еще два параметра «ссуда_inc» для учета отношения рассрочки к ежемесячному доходу (полученного с учетом годового дохода за 13 месяцев) и «% _paid» для отслеживания коэффициента погашения ссуды на сегодняшний день.

С 310 тыс. Строк данных по этим 20 параметрам моя тепловая карта корреляции показывает некоторые обнадеживающие параметры, которые хорошо коррелируют с кредитным_статусом.

Однако, поскольку я решил сосредоточиться на первичном рынке, параметры, относящиеся к информации, которая не была бы доступна в начале ссуды (например,% _paid), были удалены. Параметры со слабой корреляцией также были удалены, поскольку они имеют относительно минимальное влияние на исход статуса. Не делая слишком больших компромиссов в отношении прочности наших моделей, часто для простоты лучше сохранить количество параметров управляемым.

Пути LASSO и тепловые карты корреляции - полезные инструменты, которые помогли мне сузиться до моих 5 дружественных параметров. LASSO (оператор наименьшего абсолютного сжатия и выбора) полезен, потому что он сжимает коэффициенты наименее важных характеристик (например, дельта-воздействие) до нуля, таким образом отсеивая их вместе. Эта тепловая карта показывает соотношение моих окончательных параметров.

К сожалению, диагональ на парном графике ниже показывает, что по каждой из 5 функций перекрывающиеся данные не могут быть дополнительно преобразованы для достижения лучшей дифференциации между двумя состояниями.

Полученные результаты

Я использую этот окончательный набор данных и разбиваю их на 80–20% для обучения и тестирования моих моделей, а затем ранжирую их производительность по некоторым метрикам, а именно F1, AUC-ROC (часто называемой площадью под кривой ROC) и логарифмическими потерями.

Затем я использовал RandomizedCVSearch, чтобы найти оптимальные гиперпараметры для моих топ-3, но обнаружил, что они идут с некоторым компромиссом с AUC-ROC с минимальным преимуществом для F1, отчасти из-за некоторой степени дисбаланса данных.

Учитывая, что передача выбора модели также важна, я решил придерживаться AUC-ROC в качестве метрики и вернулся к более ранним моделям до настройки. [AUC-ROC показывает, насколько хорошо модель может различать два результата статуса. Чем ближе к 1, тем лучше.]

Я остановился на K Nearest Neighbor в качестве своей модели прогнозирования.

Оптимальный порог

Оптимальный порог, который «лучше всего» отделяет «По умолчанию» от «Полностью оплачено», составляет 0,13. Тем не менее, по разумным причинам можно было бы изменить это значение ниже. С другой стороны, если это доведено до крайности (например, порог 0,01), чтобы улучшить отзыв, то есть охватить больше случаев по умолчанию, мы в конечном итоге неправильно классифицируем многие из «полностью оплаченных» случаев. В конце концов, это компромисс.

Заключение

Хотя не существует «более надежной» цели ссуды, существуют другие индикаторы (в частности, срок, проценты, рейтинг, отношение общей суммы долговых обязательств к ежемесячному доходу, отношение ежемесячных выплат по ссуде к годовому доходу за 13 месяцев), которые помогают решить, есть ли вероятность дефолта ссуды выше, чем у других. Для кредитов, которые могут быть дефолтными, предоставление обеспечения могло бы помочь обеспечить их использование инвесторами.

Свяжитесь со мной @ https://www.linkedin.com/in/regina-cheong/