Я всегда был большим поклонником интеллектуального обучения на основе данных и выявления потенциальных закономерностей в наборах данных. Современные финансовые данные стали огромным источником информации для интеллектуального анализа данных. В случае моделирования рисков машинное обучение использовалось для прогнозирования способности заявителей погасить свои кредиты. В этом семестре наша команда провела прогностическую модель, чтобы понять, как различные характеристики заявителей могут предсказать их способность погашать кредиты.

Основными потенциальными вариантами использования содержания этого документа являются финансовые учреждения. Изучив прошлые работы, мы поняли, что, хотя традиционно банки нанимали высокопрофессиональных специалистов для оценки соответствия заявителей критериям получения кредита. В последние годы, с улучшениями в науке о данных и машинном обучении, а также с растущим спросом на кредиты, существует растущий спрос и внимание к изучению этой темы для улучшения моделей кредитного скоринга.

Smart Drill Data Mining продемонстрировал использование моделирования рисков с использованием логистической регрессии для определения критериев, связанных с вероятностью дефолта по банковскому кредиту в 2010 году. Они определили четыре важных фактора, влияющих на отношение долга к доходу, сумму долга по кредитной карте, занятость. статус и жилищный статус, а также показали, что возраст, уровень образования и доход домохозяйства, как правило, не имеют значения (Анализ кредитных рисков 9). Аналогичное исследование было проведено Аль-Аради в 2014 году. В своей статье он использовал модель логистической регрессии для прогнозирования кредитоспособности клиентов банка с использованием предикторов, связанных с их личным статусом и финансовой историей. Его исследование показывает, что между кандидатами мужского и женского пола нет никакой разницы, если рассматривать только гендерный статус (Аль-Араби 11).

Кроме того, я нашел использование техники машинного обучения в Doko et al. В 2021 году Доко и др. оценили пять различных моделей машинного обучения, чтобы создать точную модель для оценки кредитного риска, используя данные из набора данных реального кредитного реестра Центрального банка Республики Северная Македония (Doko 138). Их результаты показывают, что наилучшая точность достигается при использовании деревьев решений, за которыми следует случайный лес и линейная регрессия.

В нашем исследовании мы стремимся объединить инструменты больших данных и машинное обучение для создания наилучшей модели. Наборы данных для этого исследования собираются из трех стран: Бразилии, США и Германии. Все эти наборы данных классифицируют людей, описываемых набором атрибутов, как людей с хорошим или плохим кредитным риском. Набор данных, который я использовал, был немецким набором данных. Данные очень хорошо организованы. Однако он содержит множество категориальных переменных, которые трудно понять напрямую.

Процесс загрузки нашего проекта относительно прост. Так как мы не использовали команды оболочки для получения данных. Мы просто помещаем наборы данных в нашу соответствующую конечную папку проекта.

На этапе профилирования данных мы создаем целостное представление о наборах данных. В наборах данных Соединенных Штатов одна вещь, которую мы замечаем, это то, что раздел доходов содержит отрицательные значения. Проверяя метаданные, мы интерпретируем, что люди находятся в долговой ситуации. Однако другие наборы данных вообще не имеют этого отрицательного дохода. Мы также проверяем ряд другой информации, такой как минимальный доход и максимальный доход всех наборов данных, чтобы найти диапазон значений в каждом из них. Ниже приведен полный список всех результатов профилирования. Например, с помощью группы подсчета мы можем узнать распределение возрастов, которое настроено для последующего преобразования данных биннинга. Более того, знание среднего значения каждого числового столбца поможет решить, хотим ли мы нормализовать наборы данных. Подсчет количества нулевых строк или нулевых записей может помочь удалить их позже на этапе очистки.

На этапе очистки данных из-за несоответствия количества столбцов для каждого набора данных мы исходим из того, что перекрывающиеся столбцы должны иметь больший вес, чем отдельные столбцы. Таким образом, мы решили использовать столбцы перекрытия в качестве основы для нашего анализа и стандартизировать каждый столбец, который нам нужно использовать. 5 основных столбцов: жилье, возраст, работа, пол и доход. В немецком наборе данных, который я использовал, наборы данных содержат разные категориальные переменные, такие как «A152, A153..», для представления различных жилищных ситуаций. Чтобы настроить хороший входной поток для последующего моделирования, я нормализую эти переменные в двоичной классификации «1» и «0», чтобы представить с жильем и без жилья, когда в кредит. Возраст — это непрерывная числовая переменная. Чтобы представить эти переменные с большей ясностью, я использовал метод биннинга с размером ячейки 9, чтобы классифицировать непрерывные возрасты по 7 различным ячейкам.

В колонке «гендер», несмотря на то, что наборы данных использовали разные метки, такие как A91, A93, A94, для представления разных заявленных полов, в нашем текущем анализе мы стандартизируем эти переменные в биологическом поле только с «0» как женский и «1» как мужской. . В столбце «Работа» из-за различной классификации с категориальными переменными в наборах данных мы классифицируем каждую запись, в которой есть работа, как «1», а те, у которых ее нет, — «0». Для раздела доходов я использовал ежемесячный доход в качестве основы. Более того, в немецких наборах данных это более тонко. Поскольку в наборе данных нет столбца с ежемесячным доходом, мы использовали столбец «сумма кредита», разделенный на столбец «количество кредитных месяцев», чтобы рассчитать количество кредитов в первый месяц. Без информации о фактическом типе кредита в этой записи данных мы предполагаем, что это фактический платеж за установку. Затем я использовал ставку взноса в столбце в процентах от располагаемого дохода (ежемесячно), чтобы найти ежемесячный доход. Поскольку в разных странах используются разные валюты, мы нормализуем это число на основе среднемесячного дохода в каждом наборе данных. Теперь у нас есть процентное значение, представляющее месячный доход относительно среднего месячного значения в каждом наборе данных. Наконец, у нас есть кредитная колонка для обучения модели.

После настройки данных мы запустили логистическую регрессию модели машинного обучения и случайный прогноз. Хотя логистическая регрессия не имеет хорошей точности, случайный прогноз обеспечивает высокую точность в 65,7%, что доказывает положительную корреляцию между жильем, возрастом, работой, полом, доходом и кредитами.

Более того, из-за разницы в точности между двумя моделями мы понимаем, что в нашем выборе есть определенные переменные, которые не сильно коррелируют с выходной меткой. Чтобы лучше понять наш подход к моделированию кредитного риска, мы решили оценить взаимосвязь между выбранными метками и выходными метками численно с помощью матрицы корреляции и анализа Hive. Что касается коэффициента корреляции, то эти исследования подтверждают наши предположения о поле, жилье и доходе, а также показывают, что возраст, по-видимому, не так сильно коррелирует с кредитом.

Наконец, объединив данные о кредитных заявках из разных стран, мы пришли к выводу, что действительно существует корреляция жилья, возраста, пола, работы и дохода с кредитом. Мы выбрали совпадающие критерии как наиболее распространенные условия влияния на оценку кредитного риска. Однако наша модель не достигла ожидаемого уровня точности с показателем точности всего 66 процентов. По сравнению с информацией, собираемой финансовыми учреждениями, нам не хватает большого количества информации, которая потенциально может сыграть важную роль в заявках на получение кредита, таких как домашний адрес, собственность и уровень образования. Для будущих работ нам, возможно, потребуется включить информацию по конкретной стране, чтобы помочь нашей общей модели машинного обучения, поскольку каждая страна может по-разному понимать заявки на получение кредита.

Ссылку на код профилирования можно найти на GitHub: https://github.com/galaxyontech

Справочная работа:

Доко, Фисник и др. «Модель кредитного риска на основе данных кредитного реестра Центрального банка». Journal of Risk and Financial Management, vol. 14, нет. 3, 2021, с. 138., doi:10.3390/jrfm14030138.

Фраде, Хайме. Моделирование кредитного риска: вероятность дефолта. 26 декабря 2008 г., ani.stat.fsu.edu/~jfrade/HOMEWORKS/STA5168/FRADE_STA5168_paper.pdf.

Гаутам, Кшитиз и др. Прогнозирование кредита с использованием дерева решений и случайного леса. International Research Journal of Engineering and Technology (IRJET), август 2020 г., www.irjet.net/archives/V7/i8/IRJET-V7I8145.pdf.

Гаташе, Назих. «Бизнес-аналитика с использованием деревьев случайного леса для прогнозирования кредитного риска: сравнительное исследование». Международный журнал передовых наук и технологий, vol. 72, 2014. С. 19–30., doi:10.14257/ijast.2014.72.02.