Прогнозирование ссуд с использованием вероятностного моделирования, регрессии и анализа выживаемости дало разные результаты.
Два месяца назад я предложил задачу исследования данных о статусе кредита в средней статье. Цель состояла в том, чтобы побудить участников попытаться решить проблему и поделиться своей версией решения.
На сегодняшний день я получил отзывы от 5 участников. Перед тем, как поделиться результатами, полученными этими участниками, вот постановка задачи для упражнения.
Модель для прогнозирования состояния кредита
Инструкции. В этой задаче вы прогнозируете исход портфеля ссуд. Срок погашения каждого кредита составляет 3 года, и он имеет следующую структуру:
- Сначала заемщик получает средства. Это событие называется происхождением.
- Затем заемщик производит регулярные выплаты, пока не произойдет одно из следующих событий:
(i) Заемщик прекращает производить платежи, как правило, из-за финансовых трудностей, до окончания трехлетнего срока. Это событие называется списанием, а затем считается, что ссуда списана.
(ii) Заемщик продолжает производить выплаты в течение 3 лет после даты предоставления. На данный момент долг полностью погашен. В прикрепленном CSV-файле каждая строка соответствует ссуде, а столбцы определены следующим образом:
- Столбец с заголовком дней с момента создания указывает количество дней, прошедших между отправкой и датой сбора данных.
- Для ссуд, списанных до сбора данных, в столбце с заголовком дней от предоставления до списания указано количество дней, прошедших между выдачей и списанием. Для всех остальных ссуд этот столбец пуст.
Мы хотели бы, чтобы вы прикинули, какая часть этих кредитов будет списана к моменту завершения трехлетнего срока их действия. Пожалуйста, подробно объясните, как вы пришли к своему ответу, и укажите код, который вы использовали. Вы можете делать упрощающие предположения, но просьба указать такие предположения явно. Не стесняйтесь представлять свой ответ в любом удобном для вас формате; в частности, PDF и Jupyter Notebook подходят. Кроме того, мы ожидаем, что этот проект не займет у вас более 3–6 часов.
Набор данных для этой проблемы можно загрузить из этого репозитория GitHub.
Взносы участника
Как упоминалось ранее, 5 участников попытались решить эту проблему и поделились своими решениями. Цель проекта - оценить, какая часть ссуд, предоставленных в наборе данных, будет списана к тому времени, когда все их трехлетние сроки истекут. Таблица 1 показывает метод и% списания кредитов от различных участников, включая мое собственное решение.
Из Таблицы 1 мы наблюдаем большой разброс в прогнозируемых значениях списанных ссуд. Прогноз моделирования методом Монте-Карло, кажется, хорошо согласуется с результатами, полученными с помощью анализа выживаемости. Несмотря на то, что участник 1 и участник 2 использовали один и тот же метод (анализ выживаемости), они получили несколько разные прогнозы (14,8% и 17,0% соответственно). Участники 3 и 4 получили меньшие прогнозные значения, то есть 10,0% и 6,8% соответственно. За исключением Участника 5, все прогнозируемые значения кажутся менее 15%. Прогноз от Участника 5, кажется, действует как выброс, вносящий значительный вклад в общую дисперсию предсказанных значений. Среднее прогнозируемое значение% списанных ссуд со всех участников (включая исходное предложенное решение от Бенджамина Тайо) составляет 22,2%, когда включен Участник 5, или 12,7%, когда Участник 5 исключен.
Резюме
Подводя итог, мы проанализировали решение проекта по анализу данных прогноза кредита от разных участников. Мы заметили, что прогнозируемое значение процента списанных кредитов находится в диапазоне от 6,8% до 70%. Такой большой разброс явно указывает на то, что решение для проекта машинного обучения является субъективным и во многом зависит от опыта соискателя в области науки о данных.
Я хотел бы попросить вас попробовать решить эту проблему самостоятельно и сообщить мне, каково ваше решение. Это очень интересная проблема. Отправляйте мне комментарии и версию своего решения по следующему адресу электронной почты: [email protected]
Кроме того, если вас интересуют решения от разных участников, сообщите мне, и я пришлю вам файлы записной книжки Jupyter или скрипты Python.
Дополнительные ресурсы по науке о данных / машинному обучению
График развития компетенции в области науки о данных
Учебная программа по науке о данных
Основные математические навыки для машинного обучения