Прогнозирование ссуд с использованием вероятностного моделирования, регрессии и анализа выживаемости дало разные результаты.

Два месяца назад я предложил задачу исследования данных о статусе кредита в средней статье. Цель состояла в том, чтобы побудить участников попытаться решить проблему и поделиться своей версией решения.

На сегодняшний день я получил отзывы от 5 участников. Перед тем, как поделиться результатами, полученными этими участниками, вот постановка задачи для упражнения.

Модель для прогнозирования состояния кредита

Инструкции. В этой задаче вы прогнозируете исход портфеля ссуд. Срок погашения каждого кредита составляет 3 года, и он имеет следующую структуру:

  • Сначала заемщик получает средства. Это событие называется происхождением.
  • Затем заемщик производит регулярные выплаты, пока не произойдет одно из следующих событий:

(i) Заемщик прекращает производить платежи, как правило, из-за финансовых трудностей, до окончания трехлетнего срока. Это событие называется списанием, а затем считается, что ссуда списана.

(ii) Заемщик продолжает производить выплаты в течение 3 лет после даты предоставления. На данный момент долг полностью погашен. В прикрепленном CSV-файле каждая строка соответствует ссуде, а столбцы определены следующим образом:

  • Столбец с заголовком дней с момента создания указывает количество дней, прошедших между отправкой и датой сбора данных.
  • Для ссуд, списанных до сбора данных, в столбце с заголовком дней от предоставления до списания указано количество дней, прошедших между выдачей и списанием. Для всех остальных ссуд этот столбец пуст.

Мы хотели бы, чтобы вы прикинули, какая часть этих кредитов будет списана к моменту завершения трехлетнего срока их действия. Пожалуйста, подробно объясните, как вы пришли к своему ответу, и укажите код, который вы использовали. Вы можете делать упрощающие предположения, но просьба указать такие предположения явно. Не стесняйтесь представлять свой ответ в любом удобном для вас формате; в частности, PDF и Jupyter Notebook подходят. Кроме того, мы ожидаем, что этот проект не займет у вас более 3–6 часов.

Набор данных для этой проблемы можно загрузить из этого репозитория GitHub.

Взносы участника

Как упоминалось ранее, 5 участников попытались решить эту проблему и поделились своими решениями. Цель проекта - оценить, какая часть ссуд, предоставленных в наборе данных, будет списана к тому времени, когда все их трехлетние сроки истекут. Таблица 1 показывает метод и% списания кредитов от различных участников, включая мое собственное решение.

Из Таблицы 1 мы наблюдаем большой разброс в прогнозируемых значениях списанных ссуд. Прогноз моделирования методом Монте-Карло, кажется, хорошо согласуется с результатами, полученными с помощью анализа выживаемости. Несмотря на то, что участник 1 и участник 2 использовали один и тот же метод (анализ выживаемости), они получили несколько разные прогнозы (14,8% и 17,0% соответственно). Участники 3 и 4 получили меньшие прогнозные значения, то есть 10,0% и 6,8% соответственно. За исключением Участника 5, все прогнозируемые значения кажутся менее 15%. Прогноз от Участника 5, кажется, действует как выброс, вносящий значительный вклад в общую дисперсию предсказанных значений. Среднее прогнозируемое значение% списанных ссуд со всех участников (включая исходное предложенное решение от Бенджамина Тайо) составляет 22,2%, когда включен Участник 5, или 12,7%, когда Участник 5 исключен.

Резюме

Подводя итог, мы проанализировали решение проекта по анализу данных прогноза кредита от разных участников. Мы заметили, что прогнозируемое значение процента списанных кредитов находится в диапазоне от 6,8% до 70%. Такой большой разброс явно указывает на то, что решение для проекта машинного обучения является субъективным и во многом зависит от опыта соискателя в области науки о данных.

Я хотел бы попросить вас попробовать решить эту проблему самостоятельно и сообщить мне, каково ваше решение. Это очень интересная проблема. Отправляйте мне комментарии и версию своего решения по следующему адресу электронной почты: [email protected]

Кроме того, если вас интересуют решения от разных участников, сообщите мне, и я пришлю вам файлы записной книжки Jupyter или скрипты Python.

Дополнительные ресурсы по науке о данных / машинному обучению

График развития компетенции в области науки о данных

Учебная программа по науке о данных

Основные математические навыки для машинного обучения

3 лучших специализации МООК в области науки о данных

Портфолио Data Science более ценно, чем резюме