Сравнительный анализ алгоритмов машинного обучения для прогнозирования одобрения кредита: пример из…

Банки получают значительную часть своей прибыли от кредитов, и при большом количестве претендентов на получение кредита точное определение надежных заемщиков, которые будут погашать свои кредиты, является сложной задачей. Процесс ручной оценки подвержен недоразумениям, что приводит к отбору потенциально ненадежных кандидатов. В качестве решения мы находимся в процессе создания системы прогнозирования кредитов на основе машинного обучения. Эта система будет автономно определять квалифицированных кандидатов, что принесет пользу как сотрудникам банка, так и заявителям. Кроме того, это значительно сократит время, необходимое для одобрения кредита. В этом исследовании основное внимание уделяется прогнозированию информации, связанной с кредитами, посредством использования различных алгоритмов машинного обучения, в частности, включая ближайший классификатор K, случайный лес, классификатор опорных векторов (SVC) и логистическую регрессию.

ВВЕДЕНИЕ

Сотрудники банка в настоящее время вручную проверяют данные заявителей и принимают решения о кредите для подходящих кандидатов. Однако этот ручной процесс занимает много времени из-за большого количества заявителей. Для решения этой проблемы предлагается модель искусственной нейронной сети для прогнозирования кредитного риска банка. Выбранная модель представляет собой нейронную сеть прямого распространения ошибки, специально используемую для прогнозирования кредитного дефолта.

В исследовании используются ансамблевые методы, логистическая регрессия и классификатор опорных векторов для повышения точности прогнозирования. Целью использования этих классификаторов является повышение производительности данных и повышение эффективности.

Недостатками существующей системы одобрения кредита являются:

· Процесс, отнимающий много времени: Ручной процесс рассмотрения сведений обо всех претендентах на получение кредита занимает много времени. Это может привести к задержкам в одобрении кредита, что приведет к ухудшению качества обслуживания клиентов.

· Человеческая ошибка: если полагаться на человеческое суждение при рассмотрении каждой заявки на кредит, увеличивается вероятность ошибок. Ошибки в оценке данных заявителя могут привести к ошибочным решениям о кредите, включая предоставление кредита лицам, которые могут не иметь на это права.

· Неэффективность: Ручной процесс неэффективен, поскольку требует значительных человеческих усилий и ресурсов для обработки большого количества кредитных заявок. Это может привести к увеличению операционных расходов банка.

· Риск дисквалификации: Без помощи автоматизированных систем существует риск предоставления кредитов заявителям, которые не соответствуют критериям приемлемости. Это может привести к более высокому уровню невозвратов кредитов и финансовым потерям для банка.

· Ограниченная масштабируемость: ручная обработка менее масштабируема. По мере увеличения количества заявок на получение кредита сотрудникам банка становится все сложнее эффективно справляться с рабочей нагрузкой.

· Непоследовательное принятие решений: сотрудники разных банков могут по-разному интерпретировать критерии приемлемости, что приводит к противоречивым решениям об одобрении кредита.

· Опыт работы с клиентами: Длительные процессы одобрения могут разочаровать заявителей, потенциально приводя к негативному опыту клиентов и отговаривая людей подавать заявки на кредиты в банке.

Разработка и внедрение системы прогнозирования кредитов на основе машинного обучения, как упоминалось ранее, может устранить многие из этих недостатков за счет автоматизации процесса оценки, уменьшения количества ошибок, повышения эффективности и улучшения общего качества обслуживания клиентов.

ПРЕДЛАГАЕМАЯ РАБОТА

Чтобы решить эти проблемы, мы внедрили систему автоматического прогнозирования кредитов, используя методы машинного обучения. Вот как это работает:

1. Обучение с использованием исторических данных. Мы обучили модель машинного обучения, используя исторические данные о заявках на получение кредита. Этот процесс обучения позволяет машине анализировать и понимать закономерности и тонкости процесса утверждения кредита.

2. Автоматизированная оценка правомочности. После обучения машина способна автоматически оценивать заявки на получение кредита и определять соответствие претендентов критериям. Он делает это, применяя знания, полученные из набора исторических данных.

Преимущества:

1. Сокращение времени утверждения кредита. Благодаря автоматизации процесса утверждения кредита время, необходимое для одобрения кредита, значительно сокращается. Кандидаты получают более быстрые ответы, что улучшает их общий опыт.

2. Исключение человеческих ошибок. Поскольку весь процесс автоматизирован, вероятность человеческой ошибки значительно сведена к минимуму. Решения принимаются на основе данных и алгоритмов, что приводит к более точной оценке соответствия требованиям.

3. Эффективные и последовательные решения. Машина последовательно применяет заранее определенные критерии и алгоритмы, гарантируя, что подходящие кандидаты получат санкционированные кредиты без ненужных задержек или несоответствий.

Внедряя эту автоматизированную систему прогнозирования кредита, мы стремимся упростить процесс утверждения кредита, повысить эффективность, уменьшить количество ошибок и, в конечном итоге, предоставить подходящим заявителям своевременное одобрение кредита.

ОПИСАНИЕ ДАННЫХ

В сфере науки о данных и аналитики банковский сектор выделяется как один из наиболее известных пользователей этих методов. В этом контексте был предоставлен набор данных, содержащий 615 строк и 14 признаков, в первую очередь ориентированный на проблему классификации. Цель состоит в том, чтобы определить, следует ли утвердить или отклонить заявку на получение кредита на основе различных данных о клиенте, представленных в процессе подачи онлайн-заявки. Эти данные включают такие факторы, как пол, семейное положение, образование, количество иждивенцев, доход, сумма кредита, кредитная история и другие.

РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ

Рисунок -1: Гистограммы для различных номинальных переменных

Комментарий: В наборе данных женщин больше, чем мужчин; больше женатых по сравнению с неженатыми, меньше самозанятых и больше людей с кредитной историей.

2. Рисунок-2: Гистограммы для различных порядковых переменных.

Комментарий: В наборе данных более выражена более низкая зависимость; присутствует большее количество выпускников по сравнению с студентами бакалавриата; больше людей живут в городских районах.

3. Рисунок-3: Гистограмма доходов созаявителей и суммы кредита

Комментарий: Доходы созаявителей сильно смещены в положительную сторону, в то время как сумма кредита более или менее симметрична.

АРХИТЕКТУРНЫЕ ТЕХНИКИ

1. Дерево решений. Алгоритм дерева решений в машинном обучении очень универсален, поскольку эффективно решает задачи как классификации, так и регрессии. Эта универсальность достигается за счет построения деревьев решений. Деревья решений широко применяются в банковской сфере благодаря их высокой точности и способности создавать статистические модели, которые можно объяснить простым языком.

В дереве решений:

- Узлы представляют собой критерии или диагностику. Эти узлы представляют собой точки в дереве, где решение принимается на основе значения определенного признака.

- Края или ветви представляют собой решения или правила. Каждая ветвь обозначает путь или маршрут, выбранный на основе результата критерия или диагностики.

- Листья представляют собой результаты, которые могут быть категориальными или непрерывными значениями. Это окончательные результаты или прогнозы модели.

Сила деревьев решений заключается в их способности разбивать сложные процессы принятия решений на ряд простых, интерпретируемых шагов. Это делает их особенно ценными в таких отраслях, как банковское дело, где прозрачность и интерпретируемость моделей имеют решающее значение. Банковские специалисты и заинтересованные стороны могут легко понять и доверять решениям, принятым с помощью модели дерева решений, поскольку они могут быть выражены простым языком и визуализированы в виде древовидной структуры.

Подводя итог, можно сказать, что деревья решений являются универсальными инструментами машинного обучения, особенно в банковском секторе, благодаря их точности, прозрачности и способности представлять сложные процессы принятия решений в понятной форме.

2. Классификатор K-ближайших соседей (KNN) — это простой и эффективный алгоритм машинного обучения, используемый как для задач классификации, так и для регрессии.

Принцип: KNN работает по принципу близости. Предполагается, что похожие точки данных расположены близко друг к другу в пространстве признаков. Для классификации при получении новой точки данных KNN идентифицирует своих K-ближайших соседей из набора обучающих данных и присваивает метку класса на основе большинства голосов среди этих соседей. Для регрессии он вычисляет среднее (или средневзвешенное) целевых значений K-ближайших соседей, чтобы спрогнозировать значение для новой точки данных.

Ключевая особенность:

- Параметр K: количество соседей (K) является важным параметром в KNN. Он определяет, сколько близлежащих точек данных учитывается при составлении прогнозов. Выбор правильного значения K имеет важное значение для производительности модели.

Плюсы:

- Простота: KNN легко понять и реализовать, что делает его хорошим выбором для новичков.

- Нет фазы обучения: KNN лениво обучается, то есть у него нет явной фазы обучения. Он хранит весь набор обучающих данных и делает прогнозы «на лету», что может быть полезно для динамических наборов данных.

- Непараметрический: KNN не делает предположений о базовом распределении данных, что делает его пригодным для решения широкого круга задач.

Подводя итог, можно сказать, что KNN — это простой, но эффективный алгоритм, который для прогнозирования опирается на сходство между точками данных. Это особенно полезно, когда важны интерпретируемость и простота, и может служить полезным ориентиром для более сложных моделей машинного обучения.

3. Логистическая регрессия – это фундаментальный и широко используемый метод статистики и машинного обучения, который в основном используется для решения задач двоичной классификации.

Основная концепция:

- Логистическая регрессия моделирует вероятность того, что двоичная целевая переменная примет одно из двух возможных значений (обычно 0 и 1).

- Он использует логистическую функцию (сигмовидную функцию) для моделирования взаимосвязи между переменными-предикторами (признаками) и вероятностью принадлежности к определенному классу.

Ключевая особенность:

- Сигмовидная функция: логистическая функция (сигмовидная) сопоставляет любое действительное число со значением от 0 до 1, которое представляет вероятность положительного класса.

-Линейная граница решения: логистическая регрессия создает линейную границу решения, которая разделяет два класса в пространстве признаков. Эта граница определяется коэффициентами, полученными в ходе обучения.

Плюсы:

- Интерпретируемость: логистическая регрессия обеспечивает легко интерпретируемые результаты. Коэффициенты можно напрямую интерпретировать с точки зрения влияния каждого признака на вероятность положительного класса.

- Эффективность: он эффективен в вычислительном отношении и подходит для больших наборов данных.

- Регуляризация: для предотвращения переобучения можно применять такие методы, как регуляризация L1 и L2.

- Вероятностный результат: логистическая регрессия предоставляет вероятности, которые могут быть полезны при ранжировании или определении приоритетности прогнозов.

Таким образом, логистическая регрессия — это основополагающий алгоритм двоичной классификации, который ценится за свою простоту, интерпретируемость и эффективность. Он обеспечивает вероятностную основу для моделирования взаимосвязи между признаками и вероятностями классов.

4. Случайный лес — это мощный метод ансамблевого обучения, используемый как для задач классификации, так и для задач регрессии. Он основан на идее объединения нескольких деревьев решений для повышения точности прогнозирования и уменьшения переобучения.

Ансамблевое обучение:

- Случайный лес принадлежит к семейству методов ансамблевого обучения, что означает, что он объединяет прогнозы нескольких моделей машинного обучения для получения более точных и надежных прогнозов.

- В случае со случайным лесом он объединяет предсказания набора деревьев решений.

Ключевая особенность:

- Деревья решений: случайный лес состоит из большого количества деревьев решений, обычно сотен или даже тысяч.

- Случайная выборка: в процессе обучения каждое дерево обучается на случайном подмножестве обучающих данных. Это известно как начальная загрузка.

- Случайность объектов: при создании каждого дерева рассматривается случайное подмножество объектов для разделения на каждом узле. Это помогает декоррелировать деревья и улучшить обобщение.

- Голосование: для задач классификации окончательный прогноз определяется большинством голосов среди отдельных прогнозов дерева. Для задач регрессии это обычно среднее значение предсказаний дерева.

Плюсы:

- Высокая точность: случайный лес имеет тенденцию давать очень точные прогнозы, часто превосходящие деревья с одним решением.

- Уменьшение переобучения: сочетание нескольких деревьев и случайности признаков уменьшает переобучение, делая модель более устойчивой к шуму в данных.

- Обрабатывает большие наборы данных: Random Forest может обрабатывать большие наборы данных с многочисленными функциями.

- Важность функции: она позволяет оценить важность функции, помогая определить, какие функции оказывают наибольшее влияние на прогнозы.

- Ошибка вне сумки (OOB). Имеет встроенный метод оценки производительности модели без необходимости использования отдельного набора проверки, называемый ошибкой OOB.

Подводя итог, можно сказать, что случайный лес — это надежный и универсальный метод ансамблевого обучения, известный своей высокой точностью прогнозирования и способностью обрабатывать сложные наборы данных. Это популярный выбор в машинном обучении как для задач классификации, так и для регрессии.

5. Машина опорных векторов (SVM) — это мощный алгоритм контролируемого машинного обучения, используемый для задач классификации и регрессии. Он известен своей способностью находить оптимальные гиперплоскости, которые эффективно разделяют точки данных на разные классы.

Принцип:

- SVM основан на концепции поиска наилучшей возможной границы решения, называемой гиперплоскостью, которая максимизирует разницу между двумя классами в пространстве признаков.

- Термин «вектор поддержки» относится к точкам данных, наиболее близким к границе решения, которые оказывают наибольшее влияние на определение запаса.

Ключевая особенность:

- Линейная и нелинейная классификация: SVM можно использовать для задач линейной и нелинейной классификации. В линейной SVM используется линейная гиперплоскость, а в нелинейной SVM применяется трюк с ядром для преобразования данных в пространство более высокой размерности, где можно найти линейную гиперплоскость.

- Максимизация маржи: SVM стремится максимизировать маржу, которая представляет собой расстояние между границей решения и ближайшими точками данных каждого класса. Это помогает улучшить обобщение и надежность модели.

- Векторы поддержки: векторы поддержки — это точки данных, которые лежат ближе всего к границе решения и играют решающую роль в определении гиперплоскости.

- Трюк с ядром: SVM может использовать различные функции ядра (например, линейную, полиномиальную, радиальную базисную функцию) для обработки нелинейно разделимых данных путем неявного отображения их в многомерное пространство.

Плюсы:

- Эффективен для многомерных данных: SVM хорошо работает даже в многомерных пространствах признаков, что делает его пригодным для таких задач, как классификация текста и распознавание изображений.

- Устойчивость к выбросам: SVM менее чувствителен к выбросам, поскольку в первую очередь зависит от векторов поддержки.

- Глобальный оптимум: SVM стремится найти глобальный оптимум, что означает, что он обычно приводит к лучшему обобщению по сравнению с некоторыми другими алгоритмами.

- Универсальность: SVM применим как к задачам классификации, так и к задачам регрессии.

Подводя итог, можно сказать, что машины опорных векторов — это универсальные и эффективные алгоритмы машинного обучения, особенно при работе с многомерными данными и сложными границами принятия решений. Они являются ценными инструментами как для задач классификации, так и для регрессии.

МЕТОДОЛОГИЯ ВНЕДРЕНИЯ

§ Предварительная обработка данных. Собранные данные могут содержать пропущенные значения, что может привести к несогласованности. Для получения лучших результатов данные необходимо предварительно обработать, что повысит эффективность алгоритма. Нам следует удалить выбросы и преобразовать переменные. Чтобы решить эти проблемы, мы используем функцию диаграммы.

Затем набор данных разделяется на обучающий и тестовый наборы.

§ Обучение модели: дерево решений, классификатор K-ближайших соседей, логистическая регрессия и машина опорных векторов были обучены независимо на наборе обучающих данных.

§ Оценка модели. При оценке модели классификации мы часто используем матрицу путаницы. Эта матрица представляет собой таблицу, используемую для оценки эффективности модели в наборе данных, где известны истинные значения. Он дает четкое представление о различных результатах процесса классификации.

В сценариях двоичной классификации, которые включают два возможных класса, матрица путаницы обычно содержит четыре ключевых значения:

- Истинные положительные результаты (TP): это случаи, которые модель правильно идентифицирует как положительные.

- Истинно отрицательные значения (TN): это случаи, которые модель правильно идентифицирует как отрицательные.

- Ложные срабатывания (FP): это случаи, которые модель неправильно помечает как положительные, хотя на самом деле они отрицательные, что представляет собой ошибку I рода.

- Ложноотрицательные результаты (FN): это случаи, которые модель неправильно помечает как отрицательные, хотя на самом деле они положительные, что представляет собой ошибку второго рода.

Матрица путаницы с этими компонентами является жизненно важным инструментом для оценки эффективности модели классификации, предоставляя ценную информацию о ее точности и частоте ошибок.

Используя значения в матрице путаницы, мы можем рассчитать точность модели, чтобы оценить качество нашей модели.

Точность:

o Оценка точности случайного лесного классификатора = 82,510.

o Показатель точности классификатора K Neighbours = 63,749.

o Оценка точности SVC = 69,166.

o Показатель точности логистической регрессии = 80,833.

o Показатель точности дерева решений = 72,374.

§ Выбор модели. Основываясь на показателе точности, мы видим, что классификатор случайного леса работает лучше всего, следуя моей логистической регрессии с почти такой же точностью. Таким образом, классификатор случайного леса и логистическая регрессия являются подходящей моделью для этой проблемы.

Точность классификатора случайного леса и логистической регрессии можно оценить достаточно хорошо.

ЗАКЛЮЧЕНИЕ

На основе тщательного анализа положительных факторов и ограничений, связанных с пользователем, можно с уверенностью заключить, что продукт является высокопроизводительным участником. Он функционирует эффективно и соответствует всем требованиям, предъявляемым Банкиром. Более того, этот участник может легко интегрироваться в различные другие системы. Несмотря на то, что были случаи вычислительных ошибок, нарушений содержания и, в частности, фиксированного внимания к определенным функциям в автоматизированной системе прогнозирования, в ближайшем будущем могут быть предприняты шаги для повышения безопасности, надежности и адаптируемости этого программного обеспечения. Вышеупомянутое программное обеспечение имеет потенциал для дальнейшего развития и может быть легко интегрировано с модулем автоматизированной системы обработки. В настоящее время система обучается с использованием исторических данных обучения; однако по мере развития программного обеспечения было бы полезно включать новые данные тестирования в процесс обучения через определенные промежутки времени.

БУДУЩЕЕ НАПРАВЛЕНИЕ:

Классификатор случайного леса обеспечивает наилучшую точность с показателем точности 82% для набора тестовых данных. А для получения гораздо лучших результатов можно также использовать такие методы ансамблевого обучения, как мешение и повышение.

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА:

1. Брейман Л. Случайные леса. Машинное обучение 45, 5–32 (2001). https://doi.org/10.1023/A:1010933404324

2. Аданкон М., Чериет М. (2009). Машина опорных векторов. В: Ли С.З., Джайн А. (ред.) Энциклопедия биометрии. Спрингер, Бостон, Массачусетс. https://doi.org/10.1007/978-0-387-73003-5_299

3. Элементы статистического обучения, интеллектуального анализа данных и прогнозирования, второе издание, авторы Тревор Хасти, Роберт Тибширани, Джером Фридман.

4. Kaggle для набора данных.

Сравнительный анализ алгоритмов машинного обучения для прогнозирования одобрения кредита: пример из…

Вопросы по теме