Практический пример машинного обучения с использованием Python.
Обзор проекта:
Банк заметил, что процент неплатежей по кредитам для физических лиц очень высок — почти 15%. Они хотят использовать данные, которые они собирают по кредитам, чтобы попытаться предсказать, какие факторы или особенности, скорее всего, указывают на высокую вероятность невозврата кредита, чтобы они могли отказать в этих кредитах. Источник данных: Университет Висконсина.
Обработка данных:
- Понимание пропущенных значений и способы их решения.
- Консолидация целевой функции: Статус кредита
- Категории с поздним статусом исключены (1,6% данных)
Ищем корреляцию в числовых признаках.
- 99% корреляция между «totalBal» и «totalLim»,
- Функция «totalLim» удалена
Исследовательский анализ данных
Тестирование хи-квадрат между категориальными функциями
Арендаторы и кредиты для малого бизнеса по умолчанию Больше
Кредитные карты и консолидация долга являются наиболее распространенной причиной дефолта по мере увеличения доходов.
Имеет ли значение, где проживает заявитель?
Дополнительный трек: математические баллы
Есть ли корреляция между оценками по математике и неплатежами по кредитам в зависимости от штата?
Дефолты растут по мере увеличения отношения долга к доходу — визуализируйте 2 способа
Предварительная обработка и моделирование
Сэмплирование и настройка
- Изучено 3 различных метода отбора проб.
- Победитель — Smote Synthetic Oversampling — гиперпараметр, настроенный с использованием рандомизированного поиска.
Краткое содержание
Еда на вынос
Как мы можем достичь лучших результатов? Улучшенные характеристики. Больше образцов тоже не помешало бы. Возможные дополнительные функции:
Информация о заемщике:
- Кредитный рейтинг, возраст, уровень образования, семейное положение, количество иждивенцев, география
Характеристики кредита:
- Тип процентной ставки (фиксированная или переменная), Тип кредита (обеспеченный или необеспеченный), Дата выдачи кредита, частота платежей
- Экономические факторы:
- Процентные ставки, Уровень инфляции, Уровень безработицы, Темп роста ВВП