Аналитика данных, влияющая на кредитную отрасль

С растущим цифровым охватом потребителей наука о данных играет ключевую роль, позволяя компаниям анализировать данные, доступные по различным каналам, и преобразовывать их в тенденции и полезные идеи для своего бизнеса. Индустрия кредитования является одной из таких отраслей, где компании используют науку о данных для оценки финансовой устойчивости и способности клиента погасить долг и, таким образом, оптимизировать риск дефолта.

Под руководством Columbia Business School команда недавно работала с клиентом, предоставляющим финансовые услуги, чтобы помочь ему в создании модели прогнозирования по умолчанию. Клиент является ведущим кредитором, предоставляющим торговые денежные авансы (MCA) малым и средним предприятиям, и изучает возможность применения современных методов обработки данных для прогнозирования дефолтов по этим денежным авансам. Команда работала с ними над некоторыми недавно полученными наборами данных, чтобы количественно оценить ценность новых данных, получить представление о важных характеристиках (или функциях) для прогнозирования дефолта и оптимизировать процент одобренных кредитов при минимизации риска дефолта.

Цели и мотивация

Проект преследовал двоякую цель -

  1. Текущий процесс утверждения аванса наличными в магазине клиента включает в себя ручной анализ кредитного отчета клиента, кредитного рейтинга и множества других характеристик, которые определяют финансовую устойчивость клиентов, а также их бизнес. Этот процесс обычно может занять от 3 часов до 3 дней с момента подачи заявки до принятия решения. Это ставит клиента и команду в положение, когда мы можем использовать науку о данных, чтобы существенно повлиять на процесс утверждения и резко сократить время утверждения.
  2. Существует предел предсказательной силы человеческого интеллекта и решений. Иногда можно быть чрезмерно амбициозным и ссудить деньги бизнесу со средней кредитной историей только для того, чтобы увидеть, что бизнес пережил спад и объявить дефолт, или быть слишком консервативным и не ссудить деньги бизнесу со средней кредитной историей только для того, чтобы увидеть, что бизнес начал процветать позже, и вы упустили. Эти события называются ложноотрицательными и ложноположительными в терминологии науки о данных (позже они будут обсуждаться более подробно). Это открывает еще одну возможность применения науки о данных для использования сильного искусственного интеллекта в процессе принятия решений.

Проблемы с получением внешних наборов данных

Наш клиент недавно получил данные о кредитоспособности1 от ведущего агрегатора кредитных данных для потребителей и предприятий (например, кредитный рейтинг FICO, количество кредитных линий, общий непогашенный остаток и т. д.). Данные были разделены по четырем различным наборам данных за период с апреля 2019 года по октябрь 2020 года и включали около 4100 отдельных атрибутов и около 80 000 строк. В дополнение к наборам данных о потребителях у нас также был доступ к данным о бизнес-кредитах2, полученным, когда предприятия подают заявку на кредит. Первая проблема, с которой мы столкнулись, включала анализ данных, совместно используемых в нескольких форматах, а затем манипулирование ими для работы с информацией о временных рядах, отсутствующими значениями и категориальными функциями.

После того, как данные были преобразованы в расходуемые наборы данных, было важно создать выходную переменную, чтобы сигнализировать, будет ли потребитель не выполнять свои обязательства. Хотя у нас было много кредитной информации для потребителей, у нас не было четкой метрики по умолчанию, которую мы могли бы использовать для обучения нашей модели. Чтобы справиться с этим, мы создали несколько синтетических выходных переменных и сравнили их друг с другом, чтобы сгенерировать ставки предложений и ставки по умолчанию в соответствии со средним показателем по отрасли. Выходные переменные учитывали такие характеристики, как количество просроченных сделок, просроченный баланс и количество юридических документов, в качестве показателя того, когда кредит потребителя был отклонен, и помечали потребителя как неплатежеспособного, если что-либо из этого происходило.

Моделирование нашего подхода и тестирование различных моделей

После того, как наша команда проанализировала и очистила данные и определила синтетическую выходную переменную, мы были готовы провести выбор функций и построить модель.

Мы провели отбор признаков, чтобы ограничить количество независимых переменных от ~ 4100 до 500, используя ручной подход, а также используя различные модели для выбора признаков в порядке важности. В первую очередь мы полагались на модели Lasso и Elastic Net, чтобы найти оптимальное количество функций. Интересный вывод в конце нашего процесса выбора признаков заключался в том, что абсолютные значения наших коэффициентов резко упали после 10 признаков, что означает, что только ~ 10 признаков были очень значимыми для прогнозирования нашего результата.

После того, как мы сузили 500 основных функций, важных для нашей модели, мы работали над подгонкой нескольких моделей, чтобы определить, какая из них имеет самое сильное прогностическое качество. Мы использовали 500 функций в качестве входных данных и обучили каждую модель прогнозировать дефолт (используя нашу синтетическую переменную). Мы подобрали модели логистической регрессии, случайного леса и XGBoost и использовали оценки AUC вне выборки в качестве нашей метрики успеха. Хотя все модели давали одинаковые AUC, мы решили следовать за XGBoost, так как у него был самый высокий AUC 87,4%, что является удивительно точным.

Превращение данных в полезную бизнес-статистику

Ключом к любому проекту, управляемому данными, является его способность генерировать полезную информацию для бизнес-лидеров и меры для достижения успеха. После подгонки нескольких моделей и получения наивысшей оценки вне выборки от XGBoost наша команда проанализировала выходные результаты, чтобы рассчитать оптимальную ставку кредита для клиента и определить вероятность дефолта для клиентов.

Возможные результаты кредита могут быть представлены в матрице 2x2, как показано ниже (четыре возможных результата между прогнозом и фактическим исполнением). Эта модель направлена ​​на максимизацию прибыльных кредитов и минимизацию упущенных возможностей и дефолтов, чтобы получить оптимальную ставку предложения кредита.

Для синтетических выходных переменных, используемых нашей командой, наша модель предсказала, что прибыль может быть максимизирована при уровне предложения 96% (84% прибыльных кредитов, 12% дефолтов), и привела к следующим прогнозируемым результатам:

Мы понимаем, что наша синтетическая выходная переменная намного мягче, чем фактическая выходная переменная клиента, и в результате скорость предложения намного выше, чем у текущего клиента. Но это по-прежнему отражает потенциал роста доходов бизнеса за счет привлечения необслуживаемых клиентов. Эта модель также позволяет клиенту подключать свои внутренние переменные в качестве выходной переменной к модели и оптимизировать скорость предложения и текущую модель риска дефолта.

Заключительные мысли

Этот проект предоставил нашей команде прекрасную возможность применить прогностическую аналитику к реальной проблеме в сфере финансовых услуг и помог нам оценить силу аналитики при принятии ключевых бизнес-решений, а также дал нам представление о типичных проблемах, с которыми сталкиваются группы специалистов по обработке и анализу данных. Внешние наборы данных, над которыми мы работали, имели прогностическую ценность для измерения доверия к продавцам, но больше информации о временных рядах помогло бы нам разработать лучшую синтетическую выходную переменную.

Для нашего клиента мы видим потенциал существенного увеличения его доходов за счет увеличения ставки предложения и предложили им использовать нашу модель в качестве основы для расчета их рисков дефолта. Читателям, которые являются владельцами малого бизнеса и используют денежные авансы для развития своего бизнеса, мы рекомендуем следить за показателями финансового здоровья, используемыми для оценки риска дефолта, и постоянно работать над повышением своего доверия.

Авторы: Мониш Джайн, Кхушбу Джагвани, Полина Куликова, Росс Бьорклунд, Саймон Джи