Эта запись предназначена для объяснения подхода, который я использовал при решении задачи прогнозирования в соревновании, в котором участвовал в прошлом году.

Соревнование включало предсказание результата краткосрочных кредитов (N10,000-N50,000). Конкурс был проведен на Kaggle благодаря Data Science Nigeria и One Finance & Investment Limited.

Я не собираюсь вдаваться в подробности, а вместо этого попытаюсь выделить важные шаги, которые я предпринял для решения проблемы и получения результатов.

Данные

Данные, которые будут использоваться при обучении и тестировании модели, содержат информацию о демографии клиентов, предыдущих кредитах, взятых клиентами, и текущих кредитах. Для полной разбивки набора данных и функций ознакомьтесь с отчетом.

Наблюдение

После очистки данных и проведения исследовательского анализа данных я сделал несколько наблюдений, но я расскажу только об одном важном наблюдении, которое повлияло на мой подход к этапу моделирования.

Сумма займа клиентов колеблется от N10,000 до N50,000. На графике ниже видно, что большинство кредитов составляют 10 000 найр. Это наблюдение привело меня к подходу БЕЗ СРЕДНИХ ЗНАЧЕНИЙ.

Подход

Поэтому, увидев, что большинство кредитов выдают 10 000 найр, я подумал, что будет лучше создать отдельную модель для кредитов на 10 000 найр и еще одну для остальных. Теперь я надеялся, что разделение задачи и рассмотрение ее как двух отдельных задач не только облегчит понимание, но и повысит точность. Этот подход был вдохновлен Корном Нагелем (главным специалистом по данным в OneFi) во время короткой беседы с ним во время одного из завтраков в буткемпе. Он объяснил, как в некоторых своих экспериментах он иногда разделяет модели на отдельные группы, поэтому я решил попробовать.

Результаты

Я использовал алгоритм дерева решений для построения модели. Хотя оценочной метрикой для конкурса была точность классификации, вместо этого я собираюсь показать матрицу путаницы, потому что я считаю, что она дает правдивую и ясную картину того, как работает модель.

Модель N10 000 предсказывала 468 хороших кредитов как хорошие, а оставшиеся 59 хороших кредитов ошибочно классифицировала как плохие. > Успех модели можно правильно измерить в зависимости от бизнес-проблемы. Каковы компромиссы для правильного прогнозирования безнадежных кредитов как безнадежных?

Еще раз и даже лучше, все хорошие кредиты были точно предсказаны, но проблема бизнеса заключается в выявлении потенциальных плохих кредитов, и ему удалось точно предсказать 4 плохих кредита, в то время как 85 плохих кредитов были ошибочно классифицированы как хорошие.

Вывод

Созданная модель, похоже, не сработала; он почти всегда терпит неудачу, когда дело доходит до точного прогнозирования плохих кредитов.
Это может быть из-за дисбаланса классов, т. е. хороших кредитов намного больше, чем плохих кредитов. Это проблема, связанная с бизнесом. В реальных сценариях плохие кредиты являются аномалиями и случаются не так часто, как хорошие кредиты.

Нажмите здесь для полного отчета (подробнее), здесь для моей записной книжки и, наконец, здесь для домашней страницы конкурса.