В последние несколько лет наблюдается быстрый прогресс в применении технологий AI/ML в процессе андеррайтинга потребительских кредитов. Фактически, в настоящее время мы находимся в разгаре ожесточенной «войны за счет», в которой новые финтех-технологии, основанные на искусственном интеллекте и машинном обучении, вооруженные множеством альтернативных данных и армиями специалистов по данным, запускают неоднократные залпы против традиционного кредитного рейтинга, стремясь положить конец его долгое господство над ландшафтом потребительского кредитования с новыми оценками кредитного риска, которые они заявляют, являются более точными, инклюзивными и справедливыми.

В то время как поражение традиционных кредитных рейтингов далеко не обязательно, новые баллы набирают силу. Тем не менее, прежде чем кредиторы начнут использовать эти новые инструменты, было бы благоразумно рассмотреть несколько потенциальных «незаметных» рисков, связанных с базовой технологией и данными, которые, по нашему мнению, должны быть оценены для обеспечения их безопасности, надежности, и надлежащее принятие в процессах потребительского андеррайтинга.

Далее мы сосредоточимся на трех ключевых особенностях новых моделей кредитного скоринга на основе AI/ML, которые связаны с этими рисками: (1) тенденция использовать сотни или даже тысячи прогностических переменных (т. е. «многомерные данные»). часто извлекаются из различных типов альтернативных данных, (2) тенденция некоторых популярных архитектур моделей AI/ML «недоопределяться» во время обучения модели, что приводит к созданию нескольких решений с одинаковой или очень похожей прогностической эффективностью, и (3) все более распространенное использование методов «устранения предвзятости» для изменения обученной модели для получения «более справедливых» результатов кредитного андеррайтинга при сохранении точности прогнозов.

Чтобы было ясно, мы не утверждаем, что все модели кредитного скоринга на основе AI/ML подвержены рискам, которые мы обсуждаем ниже. Скорее, мы считаем, что типичные особенности таких моделей могут сделать эти риски более применимыми и актуальными; следовательно, включение этих рисков в процессы должной осмотрительности и проверки модели может быть как оправданным, так и благоразумным с точки зрения управления рисками.

Риск № 1: модели кредитного скоринга AI/ML, основанные на многомерных данных, могут плохо обобщать новые данные

На первый взгляд, можно было бы ожидать, что модели, содержащие больше атрибутов данных, должны работать лучше, поскольку существует гораздо больше полезных «сигналов» для прогнозирования кредитной эффективности, особенно для лиц с разреженными данными кредитного бюро, для которых традиционные модели могут либо неэффективны, либо не давать никакой оценки. все. Хотя этот аргумент, безусловно, имеет право на существование, повышение производительности за счет многомерных альтернативных данных также может вызвать непреднамеренные риски для надежности и стабильности модели.

В качестве упрощенного примера рассмотрим модель кредитного скоринга, основанную на 10 бинарных прогностических факторах (т. е. так называемых «фиктивных переменных», которые принимают только два возможных значения). Теоретически эти 10 факторов создают 1024 потенциальных линейных профиля кредитоспособности для выборки заемщиков, то есть существует 1024 комбинации 10 фиктивных переменных, которые могут описать профиль кредитного риска человека. и у нас есть набор данных из 10 000 человек, тогда мы должны наблюдать почти 10 человек для каждого возможного профиля кредитоспособности в наборе данных, тем самым обеспечивая как репрезентативность, так и глубину основной совокупности заемщиков. . Репрезентативность гарантирует, что наши обучающие и тестовые образцы соответствуют лицам, с которыми мы, вероятно, столкнемся в производственной среде, а глубина гарантирует, что наши прогнозы для каждого кредитного профиля основаны на нескольких людях с этим профилем. В целом, эта модель должна иметь низкую дисперсию с низким риском переобучения и, следовательно, хорошую способность к обобщению.

Как эти атрибуты производительности модели меняются с многомерными данными?

Предположим, мы удвоим количество бинарных прогностических факторов до 20, чтобы увеличить количество полезных сигналов, связанных с кредитоспособностью заемщика. В этом случае количество возможных линейных профилей кредитоспособности увеличивается до 1 048 576 — более чем в 1 000 раз больше, чем наша модель с 10 прогностическими факторами (см. таблицу ниже). Теперь, с тем же обучающим набором данных из 10 000 человек, мы покрываем менее 1% потенциальных профилей кредитоспособности, что делает наш набор данных одновременно нерепрезентативным и чрезвычайно разреженным, при этом во многих кредитных профилях отсутствуют какие-либо данные обучения/тестирования, а в других есть только единая запись, на которой основывается прогноз. Чтобы сохранить ту же репрезентативность и глубину, что и в предыдущей модели (около 10 записей данных на профиль), нам потребуется расширить наш набор данных более чем в 1000x, чтобы включить 10 240 000 человек. И это только для модели кредитного скоринга с 20 бинарными прогностическими факторами. Как показано в таблице ниже, количество потенциальных профилей кредитоспособности увеличивается экспоненциально по мере увеличения количества измерений данных.

Как показывают эти упрощенные примеры, хотя увеличение количества прогностических факторов может принести пользу модели кредитного скоринга за счет увеличения количества полезных сигналов для прогнозирования будущих показателей кредитоспособности, это также приводит к экспоненциальному увеличению требуемого размера набора данных (т. е. количества записей о заемщиках). ), чтобы избежать быстрого снижения репрезентативности и плотности данных. Очевидно, что даже в наш век больших данных маловероятно получение высококачественного набора данных о кредитных рисках, охватывающего более 100 миллионов человек. Однако даже с набором данных такого огромного размера целевая плотность данных около 10 по-прежнему ограничивает количество прогностических факторов до 23. Тем не менее, мы наблюдаем модели кредитного скоринга на основе AI/ML с сотнями или даже тысячи прогностических факторов! Даже при наличии всего лишь 100 прогностических факторов набор данных из 100 миллионов записей покроет бесконечно малые 7,89E–21 % потенциальных кредитных профилей! Только подумайте, насколько меньше это число стало бы с 1000 или 2000 прогностическими факторами.

Смысл этих примеров и соответствующей математики состоит в том, чтобы подчеркнуть ключевой риск «многомерных» моделей кредитного скоринга, в частности, связанный с базовым набором данных для разработки модели, даже если он может показаться «большим» в абсолютном выражении: (1 ) может не отражать в достаточной мере потенциальные кредитные профили более широкого круга потенциальных соискателей кредита и (2) может содержать только один экземпляр профилей, представленных в наборе данных. Такая разреженность данных, которая может быть более проблематичной для моделей кредитного скоринга, где дефолты по кредиту (основное интересующее событие) относительно редки, может привести к модели, чьи прогностические характеристики плохо обобщаются в производственной среде из-за ее переобучения разреженным данным. Фактически, при достаточно большом количестве измерений данных некоторые архитектуры моделей AI/ML могут достичь замечательной прогностической способности в различении значений по умолчанию и не по умолчанию во время разработки модели; однако такая «мощность», которая может быть получена из высокоразмерного переобучения обучающих данных, может оказаться недолговечной, как только модель будет развернута в производственной среде и подвергнута воздействию большей выборки из обширного входного пространства. Затем могут появиться заявления о производственном «дрейфе данных» для диагностики недостаточной производительности производственной модели — с частыми переобучениями, выполняемыми для исправления — даже если «дрейф данных» может быть просто соблюдением дополнительных кредитных профилей в огромном многомерном входном пространстве. , а производительность модели ниже номинала может быть связана с переобучением модели, а не с каким-то фундаментальным изменением в самом базовом распределении данных.

Хотя некоторые указывают на использование тестовых данных в качестве средства снижения этого риска обобщения, мы отмечаем, что наборы тестовых данных для новых моделей кредитного скоринга на основе AI/ML обычно выбираются из той же исторической совокупности заемщиков, которая используется для получения обучающих данных. . Это связано с тем, что зависимая переменная модели — показатели кредитоспособности — имеет связанное с ней временное измерение 1–2 года (т. несвоевременные» тестовые данные очень ограничены или даже невозможны, особенно для новых кредитных продуктов. По этой причине приемлемая производительность тестового набора данных может быть обманчивым показателем прогнозирующей эффективности модели в производственной среде.

Чтобы было ясно, этот потенциальный риск никоим образом не гарантирован и не является неотъемлемым недостатком современных моделей кредитного скоринга AI/ML. Тем не менее, надлежащая комплексная проверка и управление рисками модели должны потребовать дальнейшего изучения этого риска до внедрения модели. Вполне возможно, что, в отличие от наших упрощенных примеров, реальные кредитные профили гораздо более сконцентрированы в выбранном входном пространстве (даже в более высоких измерениях), и, следовательно, репрезентативность и плотность данных лучше, чем предполагает наша простая математика. Также возможно, что используемая конкретная архитектура модели AI/ML сама по себе может снизить этот риск. Тем не менее, такие оценки должны быть подкреплены твердыми эмпирическими данными, а любые недостатки и ограничения модели из-за разреженности данных и потенциальной переобучения должны быть четко раскрыты для проверяющих модель и пользователей — с соответствующими исправлениями и мерами по снижению риска.

Риск № 2: Большая степень пропущенных значений в альтернативных данных может негативно повлиять на существенный процент кредитных баллов

В то время как подавляющее большинство взрослого населения США имеет традиционные данные кредитных бюро и кредитные рейтинги, уровень охвата населения альтернативными данными может быть намного ниже из-за того, как они собираются, кому они принадлежат, влияния законов и правил о конфиденциальности и как он идентифицируется и сопоставляется с людьми. Соответственно, даже если предположить, что можно собрать достаточно большой набор альтернативных данных, чтобы обеспечить достаточную репрезентативность и глубину для целевой совокупности клиентов, довольно часто обнаруживается, что один или несколько атрибутов альтернативных данных отсутствуют для каждого человека.

Вместо того, чтобы просто исключать обучающие записи отдельных лиц с отсутствующими данными, что может привести к значительному уменьшению размера оставшегося набора данных, типичная практика разработки модели заключается в замене отсутствующих данных синтетическими заменяющими значениями, которые вычисляются с использованием различных методов, включая: (1 ) среднее значение или медиана значений неотсутствующих непрерывных переменных и (2) наиболее часто встречающееся неотсутствующее значение для категориальных переменных². Хотя обычно это не является существенной проблемой при использовании 10–20 переменных традиционных кредитных бюро, более высокая частота отсутствующие значения для сотен или тысяч альтернативных атрибутов данных могут привести к значительному присутствию синтетических заменяющих значений в наборе данных для разработки модели. перед внедрением модели оценить следующие потенциальные риски:

  • Вполне возможно, что кредитные профили многих людей настолько испорчены синтетическими значениями замещения, что прогнозируемые модели вероятности кредитного риска для этих людей не имеют индивидуального значения. То есть вместо того, чтобы действительно отражать конкретный кредитный профиль человека, оценочные вероятности кредитного риска фактически в пределе являются «средней» вероятностью когортного уровня. Это фактически становится альтернативной версией данных сегмента «тонкого файла», поднимая вопрос о том, действительно ли эти люди «поддаются оценке» и, соответственно, (1) должны ли они вообще обрабатываться с помощью модели или производственных алгоритмов, и (2) насколько модель кредитного скоринга AI / ML действительно повышает «скоринговую способность» определенных групп потребителей выше и выше уровней традиционных моделей кредитного рейтинга.
  • Если синтетические значения замещения основаны на медианах, средних значениях или наиболее частых значениях, они, вероятно, смещаются в сторону значений с меньшим риском, учитывая типичный дисбаланс классов, наблюдаемый в большинстве данных об эффективности потребительского кредита (т. е. дефолты относительно редки, а недефолты преобладают). . В таких случаях, в зависимости от конкретного порогового значения кредитного рейтинга, используемого при принятии решения, пострадавшим лицам могут быть присвоены кредитные рейтинги, которые попадают в область одобрения кредита кредитором (даже если такие лица могут не поддаваться оценке с помощью традиционных моделей кредитного скоринга или получают традиционные кредитные рейтинги, которые может привести к принятию решения об отказе в кредите). Такое искусственное повышение кредитных рейтингов на основе AI/ML может свидетельствовать о том, что модель одобряет больший процент заявителей, чем «традиционные» модели кредитного рейтинга, когда на самом деле расширенный финансовый доступ (и, возможно, улучшенные показатели справедливого кредитования, такие как коэффициенты неблагоприятного воздействия) может быть иллюзией, созданной синтетическими замещающими ценностями.
  • Для лиц с отсутствующими данными, чьи истинные базовые кредитные профили на самом деле сильнее, чем синтетические значения замещения, и которым может быть отказано порогами кредитного рейтинга кредитора, традиционные местные методы объяснимости могут быть не совсем точными в отношении реальных причин отказа в кредите - таким образом потенциально увеличивая риск соблюдения требований кредитора потребителями.

Риск № 3: решение для обучения модели машинного обучения может быть не уникальным, что может привести к потенциальной нестабильности модели и изменчивости глобальных и локальных объяснений модели.

Недавние исследования показали, что модели на основе AI/ML склонны создавать более одного обучающего решения с практически одинаковой прогностической эффективностью, но с потенциально очень разными наборами весов, если входные данные немного изменены или если разные случайные инициализации использовал. Этот риск может быть еще более повышен при наличии многомерных данных. Независимо от того, называется ли это «эффектом Расёмона»⁴ или «недостаточной спецификацией» модели⁵, неуникальность полученного модельного решения имеет важные последствия для надежности моделей кредитного скоринга на основе AI/ML, в частности,

  • Хотя несколько решений могут эффективно обеспечивать одинаковые характеристики обучения, проверки и прогностического набора тестовых наборов, способ создания этих характеристик (т. прозрачность, а также проверочное тестирование концептуальной обоснованности. Соответственно, разработчики моделей и валидаторы должны сначала выяснить, достаточно ли изучены и оценены несколько решений. Этого можно добиться разными способами — одним из самых простых является использование разных случайных начальных значений во время обучения модели.
  • Как более подробно обсуждается в сноске 5 ниже, хотя несколько решений могут эффективно генерировать одни и те же показатели производительности модели на обучающих, проверочных и тестовых выборках, такие модели могут вести себя и работать совершенно по-разному на новых невидимых данных, которые лежат за пределами этих выборок — важная модель. ограничение, которое может быть весьма актуальным для многомерных моделей кредитного скоринга, основанных на альтернативных данных. Такой риск свидетельствует о важности соответствующего стресс-тестирования модели, чтобы помочь разработчикам (и валидаторам) определить модельные решения, эффективность которых на более широкой выборке многомерных кредитных профилей менее надежна, чем у других.
  • При отсутствии существенных различий в эффективности наличие нескольких решений также означает, что глобальные и локальные объяснения моделей могут сильно различаться, т. ⁶ Кроме того, наличие нескольких объяснений может создать реальные проблемы с соблюдением требований о неблагоприятных действиях — то есть, даже если несколько моделей приводят к последовательному решению об отказе в выдаче кредита для лица, насколько значимым является объяснение этого решения об отказе, если оно может значительно различаются в разных модельных решениях? Так какую же версию этой «правды» выбрать разработчикам и на каком основании? Именно здесь обзоры концептуальной обоснованности — или методы интерпретируемого ИИ и причинно-следственного ИИ — могут помочь, сужая несколько решений до тех, которые также отвечают конкретным требованиям интерпретируемости/объяснимости, связанным с основным поведением потребителей, которые определяют различия в кредитных показателях.
  • Одной из часто упоминаемых особенностей методологий моделирования на основе AI/ML является простота переобучения моделей с течением времени на основе новых данных. Однако такое частое переобучение может также усугубить присущую модельным объяснениям нестабильность из-за недостаточной спецификации. То есть, когда новые данные добавляются в обучающий набор данных, это возмущение может привести к существенному изменению в распределении весов модели по входным переменным, что приведет к существенному изменению глобальных и локальных объяснений модели. Предполагая, что прозрачность модели и пояснения являются предметом формального контроля управления рисками, это может указывать на необходимость введения специальных дополнительных мер контроля в отношении процесса переобучения модели, чтобы обеспечить надлежащее управление и надзор со стороны функций управления рисками модели и обеспечения соответствия.

Риск №4. Использование методологий на основе AI/ML может усложнить соблюдение требований справедливого кредитования.

Одним из важных преимуществ, приписываемых моделям кредитного скоринга на основе AI/ML, является то, что они повышают объективность и инклюзивность благодаря трем основным функциям: (1) расширение новых (альтернативных) типов данных, используемых для оценки кредитного риска заявителя, (2) включение сложных нелинейных функций, созданных с помощью методологии AI/ML, которые охватывают более тонкое поведение кредитного риска, чем традиционные модели кредитного скоринга, и (3) использование методов «устранения смещения» на основе AI/ML во время обучения модели для создания более «справедливые» оценки модели (т. е. кредитные оценки с более низким уровнем несоизмеримого воздействия)⁷. Хотя цели повышения справедливости и инклюзивности имеют большое значение, необходимо проявлять осторожность во время разработки модели, проверки и оценки соответствия, чтобы избежать следующих ловушек.

  • В разделе 1 выше мы обсудили потенциал сложных моделей кредитного скоринга AI/ML, особенно тех, которые основаны на многомерных данных, для переобучения данных, тем самым ставя под угрозу способность модели хорошо обобщать в производственной среде. Однако существует также очень важный вторичный эффект переобучения модели — он может маскировать разрозненные измерения влияния. То есть, поскольку модель способна предсказывать кредитные результаты в данных разработки модели с искусственно высоким уровнем точности, традиционные метрики справедливого несоответствия кредитования могут указывать на очень небольшое смещение или его отсутствие, когда на самом деле потенциальное смещение может присутствовать в выборках, содержащих более крупные и/или более разнообразные кредитные профили.
  • В разделе 3 выше мы обсуждали, как наличие нескольких модельных решений с аналогичными показателями производительности может создавать проблемы с прозрачностью и объяснимостью модели. Тем не менее, мы также отмечаем, что некоторые методы «устранения предвзятости» могут на самом деле выиграть от наличия нескольких решений для определения менее дискриминационной альтернативы («LDA»), которая имеет фактически такую ​​же (или очень похожую) прогностическую эффективность, но, вполне возможно, , очень разные глобальные и локальные объяснения модели. Это говорит о том, что современные методы устранения предвзятости должны рассмотреть вопрос о расширении своих критериев оценки, чтобы учитывать больше, чем просто точность и предвзятость — соображения концептуальной обоснованности, надежности и объяснимости также кажутся уместными для окончательного «непредвзятого» решения.
  • Наконец, мы отмечаем, что нестабильность модели может негативно повлиять на результаты устранения смещения так же, как она влияет на общую эффективность прогнозирования модели. В частности, модель LDA, выбранная из нескольких решений, может не демонстрировать такие же показатели справедливого кредитования в производственной среде, как на обучающих, проверочных и тестовых образцах, по тем же причинам, которые обсуждались ранее, что указывает на необходимость оценки показателей справедливого кредитования в более широком диапазоне. потенциальных кредитных профилей, особенно для многомерных моделей. Кроме того, переобучение модели может существенно повлиять на показатели справедливого кредитования из-за присущей модели нестабильности, тем самым добавляя дополнительные средства контроля, которые должны быть на месте для обеспечения надлежащего управления и надзора со стороны персонала, ответственного за соблюдение требований.

Таким образом, хотя применение новых технологий искусственного интеллекта и машинного обучения к растущей библиотеке альтернативных данных показывает многообещающие перспективы для расширения безопасного, надежного и соответствующего требованиям финансового доступа для потребителей в США, эта революция все еще находится на относительно ранней стадии. Хотя эти новые технологии и альтернативные атрибуты данных, безусловно, являются многообещающими, они по своей сути являются новыми и сложными, и наше понимание их преимуществ и рисков продолжает развиваться. Более того, регулятивная среда для этих моделей все еще в значительной степени не урегулирована в том смысле, что: (1) федеральные финансовые регуляторы имеют ограниченный опыт/комфорт с такими моделями как с точки зрения безопасности и надежности, так и с точки зрения соблюдения требований потребителя, и (2) мы входим период агрессивной деятельности по обеспечению соблюдения требований потребителей на федеральном уровне и уровне штата, когда алгоритмическая предвзятость является главной проблемой. По этим причинам мы рекомендуем, чтобы потребительские кредиторы приняли более взвешенный подход к текущим «войнам оценок» — это означает, что они должны продолжать вводить новшества, оценивать и, возможно, внедрять новые инструменты кредитного скоринга — но делать это с соответствующими и осмотрительными действиями по управлению рисками. соизмеримы с нынешним повышенным и меняющимся риском.

Примечания:

[1] На практике некоторые переменные модели могут иметь более двух дискретных значений, в то время как другие могут быть непрерывными. Наличие этих многозначных переменных фактически усугубляет проблемы, описанные в этом разделе, поскольку теоретическое количество профилей кредитоспособности становится еще больше.

[2] Другой распространенной практикой является добавление к переменной категории «Отсутствует» и использование ее в качестве замещающего значения. Риски, обсуждаемые в этом разделе, также относятся к этой практике.

[3] Для простоты мы предполагаем, что отсутствующие данные являются случайными. Однако для альтернативных данных существуют законные причины, по которым такие отсутствующие данные могут быть не случайными, например, возрастные эффекты (молодые или пожилые люди могут с большей вероятностью иметь отсутствующие данные для определенных типов альтернативных данных) или географические эффекты (вариации). в законах и правилах о конфиденциальности данных на местном уровне). Отсутствующие данные, вызванные такими неслучайными факторами, могут внести другие риски в оценки модели AI/ML (которые выходят за рамки этой статьи).

[4] См. Брейман, Лео. Статистическое моделирование: две культуры, Statistical Science, Vol. 16, №3 (август 2001 г.), стр. 199–215.

[5] См. Д'Амур и др., Недостаточная спецификация создает проблемы для достоверности в современном машинном обучении, arXiv: 2011.03395

[6] Кроме того, поскольку многомерные данные более склонны к мультиколлинеарности, на некоторые глобальные и локальные объяснения модели могут влиять случайные условия обучения, что влияет на стабильность объяснения (например, факторы A и B сильно коррелированы и связаны с кредитной эффективностью, однако фактор А получает сильный вес во время одного прогона модели, а фактор Б получает сильный вес во время другого прогона модели).

[7] Здесь мы сосредоточимся исключительно на методах устранения предвзятости, встроенных в процесс обучения модели. Однако мы отмечаем, что существуют также методы устранения смещения, которые можно использовать на этапе предварительной обработки данных, а также во время постобработки (т. е. когда модель находится в производстве).

© ООО Пейс Аналитика Консалтинг, 2022.