Как команда Data Science в Tala улучшила качество обслуживания заемщиков и бизнес-показатели KPI с помощью моделирования

Этот пост является продолжением моего глубокого погружения в механику моделирования поднятий на рабочем примере. Здесь я описываю, как мы в команде Data Science в Тала применяли модели повышения доходности, чтобы помочь просроченным заемщикам погасить свои ссуды. Tala предлагает самый доступный в мире продукт потребительского кредитования, мгновенно андеррайтинг, а затем выдачу ссуд людям, у которых никогда не было официальной кредитной истории, с помощью приложения для смартфона.

Введение

Из множества способов, которыми машинное обучение может создавать ценность для бизнеса, моделирование роста - один из наименее известных. Но для многих случаев использования это может быть наиболее эффективный метод моделирования. В любой ситуации, когда есть дорогостоящие действия, которые бизнес может выборочно предпринять для разных клиентов, в надежде повлиять на их поведение, моделирование подъема должно быть сильным кандидатом для поиска той подмножества клиентов, на которую данное действие окажет наибольшее влияние. Это важно для получения максимальной отдачи от инвестиций в бизнес-стратегию.

В этом посте я опишу бизнес-проблему, которую мы решили с помощью моделирования подъема в Tala, основы моделей подъема и то, как мы их построили, как можно объяснить прогнозы моделей подъема, как концепцию подъема можно расширить, чтобы обеспечить непосредственное финансовая аналитика и соображения по мониторингу эффективности моделей повышения производительности в производстве.

Пример использования в Tala: просроченные заемщики

Когда заемщики просрочивают свои ссуды, они подвергают риску собственное финансовое здоровье, а также здоровье бизнеса, который им ссудил. Одним из основных способов связи с просроченными заемщиками и поощрения их к выплате ссуд является телефонная связь. Однако это дорогостоящий процесс, и он должен быть сбалансирован с ожидаемым увеличением доходов, которое принесет телефонный звонок: насколько более вероятно, что заемщик произведет платеж, если мы им позвоним?

С математической точки зрения нас интересует увеличение вероятности выплаты за счет звонка заемщику. Это определяется как разница в вероятности платежа, если заемщику звонят, по сравнению с тем, если он не звонит.

Предпосылка моделирования доходности заключается в том, что оно может помочь нам определить заемщиков, у которых будет наибольшее увеличение вероятности погашения, если им позвонят по телефону. Другими словами, тех, кто более убедителен. Если мы сможем идентифицировать этих заемщиков, мы сможем более эффективно расставить приоритеты для наших ресурсов, чтобы максимально улучшить финансовое состояние как заемщиков, так и Талы.

Сосредоточение на возможности

Теперь, когда мы знаем цель моделирования подъемов, как нам ее достичь? Моделирование роста опирается на рандомизированные контролируемые эксперименты: нам нужна репрезентативная выборка всех типов заемщиков как в экспериментальной группе, получившей телефонный звонок, так и в контрольной группе, которой не звонили.

Как только мы получили этот набор данных, мы заметили, что доля заемщиков, производящих платеж, была значительно выше в исследуемой группе, чем в контрольной группе. Это свидетельствовало о том, что телефонные звонки «работали» в том смысле, что они эффективно стимулировали выплаты в среднем по всем заемщикам. Это называется средним лечебным эффектом (ATE). Количественная оценка ATE - типичный результат A / B-теста.

Однако может оказаться, что только часть заемщиков в исследуемой группе несут ответственность за большую часть наблюдаемых нами ATE. В качестве крайнего примера, возможно, половина заемщиков в исследуемой группе отвечала за всю АТС. Если бы у нас был способ заранее определить этот сегмент заемщиков, которые с большей готовностью откликнулись бы на лечение, то мы смогли бы сконцентрировать на них наши телефонные ресурсы и не тратить время на тех, для кого телефонные звонки мало или совсем не нужны. эффект. Возможно, нам потребуется найти другие способы привлечь не ответивших. Процесс определения различных эффектов лечения от человека к человеку в зависимости от различных черт этих людей означает, что мы ищем условно-средний эффект лечения (CATE). Здесь на сцену выходит машинное обучение и прогнозное моделирование.

Построение и объяснение модели подъема

В машинном обучении мы можем описать различия между заемщиками с помощью функций, которые представляют собой различные количества, специфичные для заемщика. Мы разработали функции, связанные с историей платежей заемщиков, а также с результатами прошлых телефонных звонков и взаимодействий с приложением Tala. Характеристики пытаются охарактеризовать готовность и способность заемщика выплатить, а также его приверженность установлению и поддержанию отношений с Tala. Будет ли заемщик выслушивать нас и учиться у, и даст ли нам возможность поступать так же с ними?

Вооружившись описанными выше функциями и фреймворком моделирования, мы были готовы построить нашу модель подъема. Мы использовали подход под названием S-Learner. Подробнее об этом читайте в моем предыдущем сообщении в блоге о моделировании подъемов. После того, как S-Learner был построен и протестирован, мы обучили отдельную регрессионную модель на обучающем наборе с целевой переменной подъема (разница в прогнозируемых вероятностях с учетом лечения и без лечения) и теми же функциями, которые использовались для обучения S-Learner. (за исключением флага обработки, который считается функцией подхода S-Learner). Используя набор значений SHAP для тестирования из этой регрессионной модели, мы смогли понять, какие особенности модели оказали наибольшее влияние на прогнозы роста.

Хотя названия функций здесь анонимны, интерпретация наиболее прогностических функций имеет смысл в том, что заемщики, которые демонстрируют готовность платить, имеют опыт заимствования и могут захотеть взять кредит снова, а также восприимчивы к телефонной связи, являются видами заемщиков стоит поощрять к погашению с помощью телефонных звонков.

Разработка стратегий использования и мониторинга модели

Знание прогнозируемого повышения вероятности было первым шагом в нашей стратегии, основанной на модели. Однако нас интересует не только то, насколько больше вероятность того, что кто-то совершит платеж, но и возможное увеличение суммы платежа из-за телефонной связи. Чтобы определить это, мы объединили повышение вероятности с информацией о сумме задолженности заемщика и вероятной сумме платежа. Это превратило прогнозируемое повышение вероятности в оценку роста доходов из-за телефонного звонка, что позволило нам ранжировать заемщиков по тому, насколько ценно было бы им позвонить.

Возможности, представленные ранжированием заемщиков по прогнозируемому росту доходов, можно увидеть, вычислив фактическое повышение доходов как разницу в средних доходах между исследуемой и контрольной группами для разных периодов прогнозируемого роста доходов. Такой анализ аналогичен идее децильной диаграммы подъема, подробно описанной здесь. Для этого мы использовали набор для тестирования модели.

Результаты показывают, что прогнозируемое увеличение доходов эффективно определяет аккаунты, в которых телефонные звонки имеют большую ценность. Более половины дополнительного дохода, доступного от звонков всем заемщикам, можно получить, позвонив только 10% заемщиков с наибольшим рейтингом, а 90% дополнительных доходов можно получить, позвонив верхней половине заемщиков. Фактически, при рассмотрении средней стоимости телефонной связи на одного заемщика, показанной зеленой линией, становится очевидным, что звонить выгодно только 50% самых крупных заемщиков.

Учитывая очевидную возможность использования прогнозируемого роста доходов для управления телефонным охватом, мы применили эту модель в качестве ориентира для нашей стратегии. Чтобы отслеживать производительность модели после развертывания, мы создали две группы, которые позволили бы нам изучить истинное увеличение количества телефонных звонков по всему диапазону прогнозируемого роста. Мы сделали это, позвонив случайно выбранным 5% заемщиков, независимо от того, каков был их прогнозируемый рост, и не позвонили еще 5%. Основываясь на результатах этих тестов, мы смогли сделать вывод, что модель функционирует так, как предполагалось в производственной среде, используя те же метрики оценки модели, которые показаны здесь и в моем сопутствующем сообщении в блоге.

В заключение, моделирование доходности позволило Tala сосредоточить усилия по выплате займов на заемщиках, которые будут наиболее восприимчивы к этим усилиям, сэкономив время и деньги. Надеюсь, вы найдете этот отчет об опыте Талы в области моделирования возвышений полезным для вашей работы.

Первоначально опубликовано на https://tala.co 14 января 2021 г.