Практический пример машинного обучения с использованием Python.

Обзор проекта:

Банк заметил, что процент неплатежей по кредитам для физических лиц очень высок — почти 15%. Они хотят использовать данные, которые они собирают по кредитам, чтобы попытаться предсказать, какие факторы или особенности, скорее всего, указывают на высокую вероятность невозврата кредита, чтобы они могли отказать в этих кредитах. Источник данных: Университет Висконсина.

Обработка данных:

  • Понимание пропущенных значений и способы их решения.

  • Консолидация целевой функции: Статус кредита
  • Категории с поздним статусом исключены (1,6% данных)

Ищем корреляцию в числовых признаках.

  • 99% корреляция между «totalBal» и «totalLim»,
  • Функция «totalLim» удалена

Исследовательский анализ данных

Тестирование хи-квадрат между категориальными функциями

Арендаторы и кредиты для малого бизнеса по умолчанию Больше

Кредитные карты и консолидация долга являются наиболее распространенной причиной дефолта по мере увеличения доходов.

Имеет ли значение, где проживает заявитель?

Дополнительный трек: математические баллы

Есть ли корреляция между оценками по математике и неплатежами по кредитам в зависимости от штата?

Дефолты растут по мере увеличения отношения долга к доходу — визуализируйте 2 способа

Предварительная обработка и моделирование

Сэмплирование и настройка

  • Изучено 3 различных метода отбора проб.
  • Победитель — Smote Synthetic Oversampling — гиперпараметр, настроенный с использованием рандомизированного поиска.

Краткое содержание

Еда на вынос

Как мы можем достичь лучших результатов? Улучшенные характеристики. Больше образцов тоже не помешало бы. Возможные дополнительные функции:

Информация о заемщике:

  • Кредитный рейтинг, возраст, уровень образования, семейное положение, количество иждивенцев, география

Характеристики кредита:

  • Тип процентной ставки (фиксированная или переменная), Тип кредита (обеспеченный или необеспеченный), Дата выдачи кредита, частота платежей
  • Экономические факторы:
  • Процентные ставки, Уровень инфляции, Уровень безработицы, Темп роста ВВП

Контакт

Профиль LinkedIn

Подробнее: Отчет о проекте

GitHub: Прогноз дефолта по кредиту