В этом проекте используются и сравниваются несколько методов машинного обучения для бинарной классификации, то есть классификации того, попадает ли наблюдение в определенную категорию. В этом случае у банка был набор данных о клиентах с кредитной историей, и он хотел бы, чтобы команда аналитиков построила модель для прогнозирования лиц, которые столкнутся с финансовыми трудностями, определяемыми как просроченные платежи на 90 дней в течение следующих двух лет. . Цель состоит в том, чтобы построить оптимальную модель для прогнозирования людей, которые могут столкнуться с финансовым кризисом в ближайшие два года.

Набор данных можно найти на Kaggle: https://www.kaggle.com/c/GiveMeSomeCredit/overview.

Коды можно найти в репозитории мой GitHub: https://github.com/namofvietnam/machine_learning_classification_r

Краткое содержание

  • Этот проект исследует несколько подходов машинного обучения к проблеме классификации: случайный лес, бустинг, логистическая регрессия и суммирование.
  • В любых классификационных проектах машинного обучения, где модели сравниваются для поиска «лучшей» модели, каждая модель должна рассматриваться по двум элементам: ключевой показатель эффективности, по которому можно сравнивать с другими моделями, и пороговая вероятность, при которой оптимальный KPI Достигнут.
  • Показатель F-бета — это KPI гибкой модели, который уравновешивает чувствительность (т. е. дополнение частоты ложноотрицательных результатов, показывающее, насколько эффективно модель предсказывает положительные наблюдения) и специфичность (дополнение частоты ложноположительных результатов, показывающее, насколько эффективно модель предсказывает положительные наблюдения). Бета означает, во сколько раз чувствительность важнее специфичности, или во сколько раз ложноположительный результат более вреден, чем ложноотрицательный.
  • В нашем случае убытки от невыплаченного кредита съели бы прибыль от двух клиентов. Следовательно, нам нужен KPI, отражающий, что ложные отрицательные значения в два раза дороже, чем ложные положительные, или чувствительность в два раза важнее, чем точность. Таким образом, бета-значение F-бета-показателя установлено равным 2. В любом проекте моделирования классификации важно выработать суждение об относительной важности между ложноположительными ложноотрицательными.
  • Модели предсказывают возможность того, что наблюдение будет положительным. Каждая пороговая вероятность, выше которой наблюдение определяется как положительное, даст другой набор прогнозов, из которых получаются разные чувствительность, специфичность и F-показатель.
  • Иногда (как в нашем случае) существует максимально допустимая пороговая вероятность, выше которой бизнес нежизнеспособен, поскольку модель будет предсказывать слишком много положительных результатов. В других случаях существует самый низкий допустимый порог, ниже которого прогнозируется слишком мало положительных результатов, чтобы операции были жизнеспособными.
  • Модели сравниваются по наивысшему возможному показателю F-бета, полученному либо по пороговой вероятности, связанной с максимальным показателем F-бета, либо по самой высокой (или самой низкой) допустимой пороговой вероятности.
  • «Обучение» в машинном обучении также означает, какие выводы мы, люди, извлекаем из модели, а не только то, что модель предсказывает.

Предварительные суждения и теоретическая основа

Поскольку все модели классификации, рассмотренные в этом проекте, предсказывают вероятность того, что каждый человек совершит серьезную правонарушение в течение следующих двух лет, два суждения при оценке эффективности моделей: (1) пороговая вероятность, выше которой человек, вероятно, совершит серьезное правонарушение и (2) ключевой показатель эффективности.

Если вероятность того, что наблюдение окажется «верным», выше, чем эта вероятность отсечки, мы присвоим этому наблюдению «верный» прогноз. Таким образом, пороговое значение зависит от важности ложноположительных результатов (т. е. предсказания того, что кто-то совершит серьезное правонарушение, когда он этого не сделает) по сравнению с ложноотрицательным (т. е. прогнозирования того, что кто-то не совершит правонарушения, но он будет). Например, если ложноотрицательный результат стоит дороже или имеет больше неблагоприятных последствий, чем ложноположительный, мы хотели бы, чтобы отсечка была выше, чтобы можно было делать больше негативных (ложных) прогнозов. Если предположить, что весь набор данных представляет население, у среднего человека был 6,68% шанс серьезного правонарушения через 2 года. Следовательно, отсечка не должна быть намного выше 6,68%, так как банк не должен инвестировать в тех, у кого выше вероятность просрочки. Чтобы учесть важность того, чтобы не ошибиться в предсказании кого-либо как потенциального правонарушителя (что будет обсуждаться далее), для отсечки можно допустить одно стандартное отклонение выше средней вероятности 6,68%. Таким образом, максимальная вероятность того, что человек может быть отнесен к категории потенциальных правонарушителей через два года, составляет 8,35%.

Наша цель прогнозирования серьезных правонарушений в ближайшие два года представляет собой интересную проблему количественной оценки относительной важности между ложноположительными и ложноотрицательными результатами. Интуитивно понятно, что ложноотрицательный прогноз будет иметь ужасные последствия, потому что, если банк примет кредит на его основе, он потеряет как ежемесячные платежи, так и основную сумму. Для банка безнадежные долги могут вырасти до опасного уровня, что может привести к крупному долговому кризису, хотя это и маловероятно. С индивидуальной точки зрения «шанс» человека попасть в финансовый кризис может быть низким, но иметь серьезные последствия. Таким образом, как для отдельных лиц, так и для финансового учреждения финансовый кризис отдельного лица является «хвостовым» риском, очень маловероятным — в хвосте распределения событий — но весьма значительным.

С другой стороны, ложное срабатывание будет означать потерю не только процентных платежей, но и прибыльного или лояльного клиента. Совершите достаточно ложных срабатываний в течение двухлетнего горизонта, и альтернативные издержки для банка будут близки, если не эквивалентны, последствиям кризиса безнадежных долгов, который случается время от времени. Банк должен учитывать как вероятности, так и влияние этих результатов, чтобы составить портфель рисков, на основе которого выбрать вероятность отсечения.

Чтобы определить относительную важность ложноотрицательных и ложноположительных результатов, мы должны рассчитать ожидаемые затраты на просрочку платежа и потерю клиента. Согласно теории ожидаемой полезности, ожидаемая стоимость или воздействие события является продуктом воздействия события, когда оно действительно происходит, и вероятности его наступления. Для простоты мы предполагаем, что вероятность серьезной просрочки во всем населении отражает такую ​​же вероятность во всем наборе данных, приблизительно 6,68%, и что среднее значение существующих долгов в наборе данных, около 2050 долларов, также отражает среднее значение для населения. Если кредитные карты банка взимают среднюю годовую процентную ставку (APR) 24%, ежемесячно начисляемую в течение следующих двух лет, 2050 долларов вырастут при эффективной процентной ставке 60,84% до 3297 долларов (с общим накопленным процентом 1247 долларов). Мы предположили, что неплатежеспособные клиенты будут выплачивать основную сумму и проценты в конце двухлетнего периода, что также является консервативным допущением, поскольку подразумевает, что банк потерял все проценты и основную сумму, накопленные за этот период, из-за неплатежеспособных клиентов. Следовательно, ожидаемая стоимость просрочки, согласно теории ожидаемой полезности, составляет 3297 долларов * 6,68% = 220 долларов. Между тем, мы предположили, что прибыльные клиенты в среднем погасят долг в размере 2050 долларов США в течение одного года (т. е. выплатят проценты плюс 32% от остатка в месяц), что будет означать выплату процентов в размере 126,53 долларов США. Ожидаемые затраты за два года в случае, если упущенный клиент, ошибочно идентифицированный как потенциальный правонарушитель, составит 126,53 долл. США * 93,32% = 118,08 долл. США. Таким образом, ложноотрицательные результаты, т. е. невозможность предсказать просрочку, что приведет к потере основных средств и интересов, обойдутся вдвое дороже, чем ложноположительные результаты, т. е. прогнозирование клиента как потенциального просрочки, что приведет к потере прибыльного клиента.

Поскольку простое сравнение частоты ошибок (или точности) не имеет смысла из-за асимметричного распределения положительных и отрицательных случаев и разницы во влиянии между двумя случаями, мы решили использовать другие показатели. Как правило, используется либо чувствительность (дополнение частоты ложноотрицательных результатов), либо точность (дополнение частоты ложноположительных результатов). , используется в качестве метрики для сравнения моделей в ситуациях, когда либо ложные срабатывания, либо ложноотрицательные результаты явно более важны, чем другие.

Чувствительность показывает, насколько хорошо модель охватывает все наблюдаемые положительные результаты. Более высокая чувствительность означает, что прогнозируется больше истинных положительных результатов, но также допускает большее количество ложных срабатываний и уменьшает количество ложных отрицательных результатов.

Точность показывает, насколько эффективно модель делает истинные положительные прогнозы из всех своих положительных прогнозов. Более высокая точность означает, что модель предсказывает больше истинных положительных результатов с меньшим количеством положительных прогнозов, но возможно больше ложноотрицательных результатов, поскольку делается больше отрицательных прогнозов, при этом количество ложных срабатываний уменьшается.

Поскольку ложноотрицательные результаты в нашем случае обойдутся вдвое дороже ложноположительных, как обсуждалось выше, нам нужна метрика, сочетающая чувствительность и точность таким образом, чтобы чувствительность была в два раза важнее. как точность, чтобы уменьшить ложные отрицательные значения. Такой метрикой является показатель F-бета, где значение бета отражает относительную важность чувствительности по сравнению с точностью. Когда чувствительность в 2 раза важнее точности, бета устанавливается на 2.

Преимущество использования показателя F-бета в качестве метрики двоякое. Во-первых, оптимальная оценка F-бета представляет собой единственное значение, сопоставимое между моделями. Во-вторых, легко рассчитываемые как компоненты показателя F-бета, чувствительность и точность могут предоставить дополнительную информацию о производительности модели. Менеджеры с разными точками зрения на рыночный риск и внутреннюю толерантность к риску могут полагаться на чувствительность и точность при построении собственной версии балансировки. Однако без теоретического ограничения на пороговую вероятность показатели F-бета, как правило, имеют перевернутую U-образную кривую, поскольку пороговая вероятность варьируется от очень низкой до очень высокой, что может быть сложно при сравнении производительности модели. Показатель F-бета имеет значение только при оценке производительности до или в точке перегиба U-образной кривой, которая часто является оптимальной точкой.

Недостатком этого подхода является то, что бета устанавливается на основе суждения об относительной важности ложноотрицательных и ложноположительных результатов, что, в свою очередь, требует различных допущений. Различные предположения будут поддерживать разные суждения и выбор бета-версии. Тем не менее, процесс останется одинаковым для любого выбора бета-версии.

Модели будут сравниваться по их лучшему значению F-бета-показателя, полученному путем применения различной вероятности отсечения, от 0 до 1, превышающей 8,35%, что является упомянутым ограничением в соответствии с политикой управления рисками банка. Мы будем называть это максимально допустимым порогом. Однако самая высокая F-оценка, которую может получить модель, может соответствовать другой вероятности отсечения, которую мы будем называть теоретической оптимальной отсечкой. Мы сравним производительность модели на основе неограниченного наивысшего F-показателя и отметим практичность каждой модели на основе наивысшего F-показателя, достигнутого с максимально допустимым значением. отрезать.

Сводка набора данных

Набор данных содержит 150 000 строк данных. За исключением бинарного целевого результата SeriousDlquin2yrs и идентификационного номера X, все остальные переменные были числовыми (целыми или процентными). Для получения более подробной информации о предварительной обработке и очистке посетите мой репозиторий GitHub для этого проекта.

Построение модели, интерпретация и оценка

I. Случайный лес

Теория и конструкция

Случайный лес — это совокупность большого количества деревьев решений для классификации. Чтобы понять случайный лес, мы должны сначала понять деревья классификации.

Модель дерева классификации определяет дерево принятия решений на основе положения наблюдений в наборе данных по определенному «измерению» или переменной. (Может быть более одной переменной-предиктора, и большее количество предикторов будет означать большее количество измерений, по которым возможно разветвление или «разделение» решения). Следуя этому дереву решений, человек или машина, вероятно, сделают правильный прогноз относительно целевой переменной наблюдения, которая имеет определенные атрибуты в определенных измерениях, которые попадают в определенное положение на карте дерева.

Подобно тому, как лес состоит из множества деревьев, модель случайного леса агрегирует результаты большого количества деревьев классификации, в данном случае 500. Результат такого агрегирования двоякий. Во-первых, агрегированные прогнозы обычно более точны, чем прогнозы любого отдельного дерева. Во-вторых, теоретически случайный выбор признаков, по которым деревья разделяют решения, снижает вероятность переобучения.

Интерпретация результатов

Эффективность модели

Что касается производительности модели, то, если бы не ограничение банка, с учетом суждения о том, что ложные срабатывания в два раза дороже, чем ложноотрицательные в конкурентной среде, наивысший F-показатель, достигнутый случайным лесом, был 0,52 в точке отсечки. вероятность 13,3%. Это означает, что при более высокой толерантности к риску, чем ограничение в 8,35%, или в условиях высокой конкуренции, где важно привлечь прибыльных клиентов, и с ожидаемой стоимостью серьезного просрочки вдвое больше, чем у прибыльного клиента, банк может допустить кого-то с Согласно этой модели, вероятность серьезного правонарушения составляет 13,3%. При самой рискованной допустимой вероятности отсечения 8,35% F-бета-оценка модели случайного леса составила 0,51. Однако для увеличения F-показателя модели на 0,01 банку придется увеличить ограничение на 59%, что может быть слишком рискованным.

При оптимальной отсечке чувствительность составляла 0,65, а точность 0,29. Это означает, что если бы банк принимал ссуды для лиц с серьезным риском просрочки платежа на одно стандартное отклонение выше, чем среднее значение для генеральной совокупности, в среднем модель могла бы выявить 65% случаев, когда эти лица фактически подверглись бы просрочке, используя 29% ее положительных результатов. прогнозы, то есть за счет 71 человека, неправильно классифицированного из каждых 100 человек, помеченных как потенциальные правонарушители. Наивысшая допустимая вероятность отсечки привела к чувствительности 0,74 и точности 0,23.

Учебная статистика

Хотя невозможно изложить механизм принятия решений, представленный каждым деревом в лесу, мы можем узнать относительную важность каждой переменной в агрегированном решении случайного леса. Ниже приведена диаграмма ранжирования переменных по их важности в решении леса с использованием метода «IncNodePurity», также известного как «Gini Impurity» или «Mean Decrease Gini»:

В модели случайного леса «примесь Джини» или «примесь узла» является мерой того, как часто случайно выбранный признак будет неправильно помечен, если он будет случайно идентифицирован на основе случайного распределения наблюдений в этой переменной. Нечистота увеличивается со случайностью, поэтому переменная, чистота которой увеличивается в процессе случайного выбора леса, должна оказаться более важной. Согласно модели случайного леса, основанной на повышении чистоты, возобновляемом использовании необеспеченных линий, коэффициенте долга и ежемесячном доходе, это три переменные с наибольшим увеличением чистоты и, следовательно, имеют наибольшее значение. Следующими по очереди шли числа просроченных платежей на несколько сроков, а последними шли количество иждивенцев и количество кредитов или строк на недвижимость.

Предостережение: метод примеси Джини для важности переменной имеет смещение: он придает большее значение переменным, имеющим много уровней (чаще всего непрерывным переменным), которые имеют больше возможных точек разделения, чем переменные с меньшим количеством уровней. Следовательно, ключевое слово «относительная важность» следует интерпретировать в отношении количества уровней в каждой переменной (например: относительная важность среди непрерывных переменных; относительная важность среди переменных с 5 уровнями и т. д.).

II. Повышение

Теория и конструкция

Повышение связано со случайным лесом тем, что оно также объединяет деревья решений, но вертикально, а не горизонтально. Ошибка предсказания первого дерева в цепочке будет предсказана следующим деревом, ошибка которого будет предсказана следующим деревом, и так далее для большого числа деревьев (десятков, сотен или тысяч) в цепочке. цепь. Поскольку ошибки были столь тщательно предсказаны и учтены большим количеством деревьев, повышается точность предсказания всей цепочки. Когда количество деревьев-членов слишком велико, эта точность будет слишком хорошей на обучающем наборе, чтобы ее можно было получить, когда модель применяется к новым данным. Поэтому необходимо определить оптимальное количество деревьев. Мы не можем использовать разное количество деревьев, чтобы предсказать набор тестовых данных и сравнить производительность разного количества деревьев, потому что это означало бы использование набора тестовых данных при обучении и нарушение целостности обучающих и тестовых наборов данных в машинном обучении. Однако мы можем использовать метод, называемый перекрестной проверкой, при котором обучающая выборка делится на несколько частей; каждая складка будет использоваться для проверки оптимального количества деревьев модели, построенной на комбинированных точках данных остальных сгибов, и оптимальное количество деревьев этих деревьев (по одному на каждую складку) будет агрегировано в качестве оценки для наилучшее количество деревьев для модели, построенной на всей обучающей выборке. Для рассматриваемой проблемы мы начали с 1000 деревьев и использовали перекрестную проверку, чтобы найти оптимальное количество деревьев 620.

Интерпретация и оценка

Эффективность модели

Модель бустинга достигла наивысшего F-показателя 0,52, соперничая со случайным лесом, но с более низкой оптимальной вероятностью отсечки, равной 10%. Чувствительность составила 0,64, а точность 0,29, что довольно близко к показателям случайного леса при его оптимальной отсечке. При максимально допустимом пороговом значении F-показатель был близок к 0,515, чувствительность = 0,69, точность = 0,25. На практике с моделью повышения банку не нужно поднимать планку допуска на 59%, как в модели случайного леса, чтобы достичь того же уровня баланса между ожидаемыми издержками просрочки и потерянным клиентом. Вместо этого с помощью модели повышения банк может увеличить планку примерно на 20%, если он хочет достичь большей точности в прогнозировании потенциальной просрочки, чем при отсечке 8,35%.

Учебная статистика

Подобно случайному лесу и любым моделям классификации на основе деревьев, бустинг также определяет относительное влияние каждой переменной в классификации. В то время как в случайном лесу мы использовали увеличение чистоты или уменьшение примеси для определения относительной важности переменных, в бустинге мы можем использовать аналогичную концепцию, называемую перестановкой. Этот метод перемешивает (переставляет) предикторы, чтобы ввести случайность и вычислить ошибку предсказания этой переменной (аналогично примеси). Используя метод определения относительной важности, аналогичный тому, что используется в случайном лесу, мы получили следующую гистограмму переменных, отсортированных по важности.

Как случайный лес, так и модель бустинга согласились с тем, что возобновляемое использование незащищенных линий наиболее важно для прогнозирования того, попадет ли человек в финансовый кризис в следующие два года. Однако в модели повышения просроченные платежи на 90 дней, 30–59 дней и 60–89 дней были перечислены как следующие по важности. Следующими в очереди были возраст, количество открытых кредитных линий, количество кредитов или линий на недвижимость и ежемесячный доход. Коэффициент долга, будучи вторым по важности в случайном лесу, был «вторым» по неважности в модели повышения. Количество иждивенцев было определено как незначительное в обеих древовидных моделях.

III. Логистическая регрессия

Теория и конструкция

Логистическая регрессия связана с линейной регрессией в том смысле, что обе ищут линейные отношения между различными факторами и целью. Однако вместо численного прогноза для самой числовой цели, как в линейной регрессии, логистическая регрессия предсказывает бинарные результаты, анализируя, как изменения в одной переменной коррелируют с вероятностью того, что произойдет положительный случай бинарной цели.

Большинство регрессионных моделей стремятся подогнать переменные к наиболее подходящей линии (будь то линейной или логистической), независимо от того, соответствует ли переменная этой линейной модели. Расстояние статистически незначимой переменной от модели может быть учтено, но сама переменная все равно будет включена в прогноз, если для модели не указано правило исключения. Наша команда использовала пошаговое исключение, чтобы отделить модель логистической регрессии от статистически незначимых переменных, одну за другой, до тех пор, пока не останутся статистически значимые переменные, тем самым учитывая переоснащение обучающего набора из-за статистически незначимых элементов. Этот процесс отверг возобновляемое использование незащищенных линий как статистически незначимое для прогнозирования вероятности того, что кто-то совершит серьезное правонарушение. Это резко контрастировало с определением случайного леса, в котором возобновляемое использование необеспеченных кредитных линий является наиболее важным для прогнозирования той же цели.

Интерпретация и оценка

Эффективность модели

Модель логистической регрессии достигла наивысшего F-показателя 0,35 при оптимальном пороговом значении 8,79%. Обратите внимание, что эта оптимальная вероятность отсечки не слишком далека от ограничения банка. Хотя модель логистической регрессии не работала так же хорошо, как модель случайного леса, в балансировке взвешенной важности ложноотрицательных и ложноположительных результатов, она может иметь практическую ценность, поскольку банку, возможно, не придется слишком сильно корректировать ограничение, чтобы воспользоваться преимуществом оптимальная производительность модели логистической регрессии. При оптимальном пороге модель логистической регрессии могла выявить 48% тех, кто действительно совершил серьезные правонарушения, и оставила 83 человека, неправильно классифицированных из каждых 100, помеченных как потенциальные правонарушители. При самой рискованной допустимой пороговой вероятности 8,35% значение F-бета модели логистической регрессии составило 0,35 с чувствительностью 0,50 и точностью 0,15.

Учебная статистика

В таблице ниже перечислены логистические коэффициенты и их статистическая значимость, определенная с помощью модели логистической регрессии.

Расчетный коэффициент (​β)P-значение(пересечение)-1,31E+00‹ 2e-16***возраст-2,91E-02‹ 2e-16* **NumberOfTime30.59DaysPastDueNotWorse5.19E-01‹ 2e-16***DebtRatio-1.28E-040.01844*Месячный доход-3.97E-05‹ 2e-16***NumberOfOpenCreditLinesAndLoans-8.91E-030.00685**NumberOfTime s90DaysLate4.89E-01‹ 2e-16***NumberRealEstateLoansOrLines8.71E-021.59E-10***NumberOfTime60.89DaysPastDueNotWorse-9.79E-01‹ 2e-16***NumberOfDependents1.03E-01‹ 2e-16***

Коды значимости: «***» 0,001, «**» 0,01, «*» 0,05, «.» 0,1, « » 1

Чтобы интерпретировать эту таблицу, каждый коэффициент β представляет собой изменение вероятности того, что положительный случай произойдет, на средний коэффициент умножения eβ для каждого единичного изменения связанной переменной. , все остальные переменные равны. Соответственно, в среднем, при прочих равных условиях, вероятность того, что человек совершит серьезное правонарушение в следующие два года, будет:

  1. снижение на 3% за каждый 1 год увеличения возраста,
  2. увеличение на 68% за каждый дополнительный раз 30–59 дней просрочки,
  3. уменьшение на 0,01% на каждый 1% увеличения коэффициента долга,
  4. уменьшение на 4% на каждые 1000 долларов увеличения ежемесячного дохода (0,004% на каждый доллар увеличения ежемесячного дохода),
  5. уменьшение на 1% за каждую дополнительную открытую кредитную линию или кредит,
  6. увеличение на 63% за каждый дополнительный раз 90-дневной просрочки платежа,
  7. увеличение на 9% за каждый дополнительный кредит или линию недвижимости,
  8. снижение на 62% за каждый дополнительный раз 60–89 дней просрочки,
  9. увеличить на 11% за каждого дополнительного иждивенца.

Выводы (1), (2), (4), (6), (7), (9) сходятся с интуицией и дают численное изменение шансов, что часто полезно для сценариев принятия решений, включающих расчет ожидаемых последствий события, как описано в разделе структуры предварительного моделирования. Выводы ©, (e) и (h) несколько противоречат интуиции. Статистическая значимость результатов (3) и (5) относительно ниже, чем у других результатов (p(c)= 0,02, p(e) = 0,007 по сравнению со многими более низкие p-значения, наблюдаемые для других утверждений), поэтому ошибка прогноза все еще может играть, хотя и небольшую роль в этом выводе. Однако (8) является одновременно статистически значимым и противоречивым и требует дальнейшего изучения.

IV. Модель стекирования

Батарея моделей лучше, чем одна, благодаря как вычислительной мощности, так и эффекту агрегации. Для комбинаций моделей мы используем метод наложения, при котором модель менеджера предсказывает цель на основе как существующих предикторов, так и прогнозов трех других моделей. Чтобы определить наиболее эффективную модель менеджера для стекирования, мы позволяем каждому стеку тестироваться с подмножеством тестового набора данных и сравниваем F-показатели менеджеров в этих тестовых раундах. Поскольку случайно выбранное подмножество тестового набора существенно отличается от самого тестового набора, мы могли бы в некоторой степени избежать утечки тестовых данных в процесс обучения. Затем наиболее эффективный стек будет предсказывать исходный тестовый набор, и его производительность снова будет сравниваться с производительностью отдельной модели.

Менеджер по обучению 1: Логистическая регрессия

Когда модель пошаговой логистической регрессии, основанная на сложенном наборе поездов, использовалась для прогнозирования цели в подмножестве сложенного набора тестов, самый высокий F-показатель составил 0,49 при удивительно низком оптимальном пороге 0,05%. Что еще более интересно, эта низкая отсечка привела к здоровой чувствительности 0,61 и точности 0,29. При максимально допустимом пороговом значении банка F-показатель = 0,36, чувствительность = 0,34, точность = 0,42.

Тренировочный менеджер 2: Случайный лес

Когда модель случайного леса, основанная на сложенном наборе поездов, использовалась для прогнозирования цели в подмножестве сложенного набора тестов, наивысший F-показатель составил 0,48, также при низком оптимальном пороге 0,11%. Это низкое значение отсечки привело к здоровой чувствительности 0,60 и точности 0,27. При максимально допустимом пороговом значении банка F-показатель = 0,41, чувствительность = 0,40, точность = 0,44.

Менеджер по обучению 3: Нейронная сеть

Привлекательность нейронных сетей заключается в том, что они имитируют работу нейронов в мозге с узлами, которые соединяют слои, так же как синапсы связывают концепции друг с другом. Эти слои состоят из входного слоя, выходного слоя и скрытых слоев между ними. Точно так же, как нейроны, которые получают больше сигналов, со временем становятся сильнее, узлы, которые получают больше сигналов, становятся более значимыми в прогнозировании соседнего слоя. Такой подход позволяет учиться на примерах. Нейронные сети часто предсказывают с неожиданной точностью и являются основой более продвинутых методов глубокого обучения. Однако из-за того, что промежуточные слои скрыты, нейронные сети могут дать мало информации о том, как работают явления. Поскольку мы пробовали несколько обучаемых моделей, репутация производительности нейронных сетей в прогнозировании сделала ее привлекательной в качестве модели менеджера в стекинге.

Запустив модели нейронных сетей с одним слоем разного размера единиц несколько раз, мы обнаружили, что однослойная модель, независимо от размера единицы в слое, не давала положительного прогноза, который был так же хорош, как и наилучшее предположение, основанное на доминирующем негативные случаи. Поэтому мы отказались от модели однослойных нейронных сетей в качестве менеджера. Однако, в отличие от подхода наилучшего предположения, основанного на доминирующих случаях, можно заглянуть в узлы модели нейронной сети, чтобы увидеть, какие «нейроны» были активированы больше в процессе «обучения».

Этот рисунок является результатом одноуровневой однослойной модели. Хотя мы запустили модель с несколькими размерами единиц измерения для одного слоя, для целей визуализации была выбрана самая простая модель (размер единицы измерения = 1). Более жирные линии обозначают более сильные связи с единственным скрытым слоем, но это все, что мы могли узнать из модели.

Выбор менеджера и «стекинг» против одиночных моделей

Несмотря на то, что остальные менеджеры имели сходную производительность при оптимальных пороговых значениях по их одинаково высокому максимальному F-показателю, когда рассматривалась практически самая высокая допустимая пороговая вероятность, стек, управляемый лесом, показал несколько лучшие результаты по F-показателю (взвешенный баланс между ложными срабатываниями и ложными срабатываниями). отрицательные), чувствительность (эффективность обнаружения положительных случаев) и точность (эффективность обнаружения положительных случаев). Когда этот стек, управляемый случайным лесом, продолжал прогнозировать стековый тест, он достиг своего максимального F-показателя 0,47 при оптимальном пороге 0,13% с чувствительностью = 0,60, точность = 0,26. Поскольку эта оптимальная отсечка может быть слишком низкой для реализации банком, мы рассмотрели максимально допустимую отсечку. На этом пороге стек работал с F-score = 0,40, чувствительность = 0,39, точность = 0,42.

На диаграмме показана относительная важность (измеряемая увеличением чистоты) переменных в соответствии со стеком, управляемым лесом.

Тот факт, что внутри стека, управляемого случайным лесом, были предсказания случайного леса, может объяснить предвзятость, когда предсказания единственного леса рассматривались с такой непропорциональной важностью. Однако другая гипотеза может заключаться в том, что сингулярный случайный лес проделал настолько хорошую работу по предсказанию цели, что стек случайного леса признал, что предсказания сингулярного леса становятся более точными, когда вводится больше случайности. Помимо этого, предсказаниям двух других моделей придавалось большое значение. Первая переменная в списке, которая не была результатом прогностического моделирования, — это количество случаев опоздания на 90 дней, что интуитивно понятно. Стек леса также обычно оценивал просроченные платежи различной продолжительности как более важные, чем остальные переменные, что согласовывалось с единственной моделью boost.

Рекомендации и обсуждения

Если выполняется предположение, что ожидаемая стоимость ложноотрицательных результатов в два раза выше, чем стоимость ложноположительных результатов, то из четырех основных моделей как модель сингулярного случайного леса, так и модель бустинга достигли наивысшего значения F-бета-показателя (с бета = 2, представляющее указанные веса). Однако оптимальная вероятность отсечки модели повышения (связанная с ее F-показателем) ближе к максимально допустимой отсечке банка. На теоретическом уровне банк может выбрать либо модель повышения, либо модель случайного леса, в зависимости от своей устойчивости к риску. В зависимости от предварительной оценки относительных весов ложноположительных и ложноотрицательных результатов оптимальная модель может отличаться, но процесс определения такой модели аналогичен.

Когда рассматривается самая высокая допустимая вероятность отсечки, модель бустинга по-прежнему обеспечивает наилучший баланс ложных отрицательных и ложных положительных результатов. Однако модель случайного леса оказалась наиболее эффективной при выявлении положительных наблюдений (чувствительность 0,74), тогда как стек, управляемый лесом, оказался наиболее эффективным при получении положительных прогнозов (precisionrf_stack = .42). В зависимости от терпимости банка к риску, исходя из внутренней ситуации и внешней рыночной конъюнктуры, может измениться максимально допустимое отсечение, а также может измениться соотношение между чувствительностью и точностью.

Текущее исследование имело некоторые ограничения. Наиболее важным ограничением является то, что, поскольку команда пыталась поддерживать взвешенный баланс между чувствительностью и специфичностью, характеристики моделей сравнивались друг с другом без более стабильного эталона, применимого ко всем моделям, для более объективного правила исключения. При сохранении баланса чувствительность и специфичность были в некоторой степени нарушены, или могло возникнуть несоответствие между теоретическим оптимальным пороговым значением и точкой практического допуска (например, в случае многоуровневых моделей, в которых «оптимальные» пороговые значения были слишком завышены). низкий уровень для реализации на практике). Будущие исследования могут выиграть от более качественной метрики производительности модели, которая будет учитывать как обсуждаемый взвешенный баланс, и точность моделей. Кроме того, стоит отметить, что чувствительность и специфичность также зависят от нескольких других объективных и субъективных суждений, каждое из которых может меняться. Таким образом, к этому проекту следует относиться скорее как к методологической основе и его рекомендациям, разовым мерам, а не как к универсальному ответу для всех банков на все времена.