В 2016 году было гораздо больше скептицизма в отношении использования машинного обучения для борьбы с отмыванием денег. Теперь, в 2019 году, мы постоянно получаем RFP / RFI для решений по проверке рисков KYC / AML со встроенным машинным обучением. Регулирующие органы уже проверяют производственные системы машинного обучения. В Совместном заявлении, опубликованном в прошлом году, четко заявлено, что искусственный интеллект и цифровая идентификация - это будущее индустрии соблюдения нормативных требований, и поощряются инновации, снижая риски экспериментов с поставщиками технологий в рамках нормативных песочниц.

В Merlon мы создаем и запускаем критически важные системы проверки рисков машинного обучения для AML / KYC в течение нескольких лет. Мы много узнали о возникающих проблемах и еще в марте присоединились к дискуссии, которую организовала Пенни Кроссман из American Banker, чтобы поделиться своими мыслями об искусственном интеллекте в Regtech. Ниже мы более подробно раскрыли мысли этой панели, чтобы поделиться нашим опытом создания производственных моделей машинного обучения для KYC / AML в глобальных банках первого уровня.

Https://www.youtube.com/watch?v=A0c11g5BMkA

Почему искусственный интеллект для борьбы с отмыванием денег перешел от спекуляций к производству

Большой рынок, идеальное время

По данным Управления ООН по наркотикам и преступности, ежегодно отмывается около 4,38 трлн долларов (или 5% мирового ВВП). Подсчитано, что глобальная система финансовых услуг тратит до 100 миллиардов долларов в год на соблюдение правил в отношении финансовых преступлений, но по-прежнему несут 35 миллиардов долларов в виде ежегодных штрафов со стороны регулирующих органов. Растущие операционные расходы, штрафы и риски, наконец, выросли до такой степени, что заинтересованные стороны побуждаются к новым действиям.

Хорошая новость заключается в том, что высокий риск, выделенное время и растущие затраты - все проистекают из одной и той же проблемы, и это поправимо - неэффективные устаревшие механизмы проверки рисков: устаревшие технологии лежат в основе механизмов запросов и правил, используемых в KYC и мониторинге транзакций.

Стремление к внедрению машинного обучения было быстрее, чем ожидалось

Когда мы основали Merlon в 2016 году, было гораздо больше скептицизма в отношении использования машинного обучения для борьбы с отмыванием денег. Теперь, в 2019 году, мы получаем множество запросов предложений / RFI для решений по скринингу рисков со встроенным машинным обучением в KYC / AML с экономическим обоснованием эффективности.

Мы недооценили, насколько быстро произойдут изменения. Распространено мнение, что регулирующие органы не склонны к риску, не разбираются в технологиях и поэтому боятся систем машинного обучения. Мы обнаружили, что на самом деле регулирующие органы вдумчивы, дальновидны, уже рассматривают системы машинного обучения в производственной среде, а также поощряют и предоставляют песочницы для моделей машинного обучения.

Совместное заявление, опубликованное в прошлом году, является прекрасным примером того, как банковские регулирующие органы США видят свою роль в продвижении инноваций в области борьбы с финансовыми преступлениями. Они четко заявили, что искусственный интеллект и цифровая идентификация - это будущее индустрии соответствия, и взяли на себя обязательство поощрять инновации, снижая риски экспериментов с поставщиками технологий и принимая неудачи во время пилотных программ. Эта тенденция наблюдается во всем мире, когда такие агентства, как FCA, FINMA или JFSA, создают нормативные песочницы и лицензии на финансовые технологии для ускорения развертывания инновационных решений по обеспечению соответствия в банках высшего уровня.

Как меняется ландшафт решения

Существует большой набор поставщиков стандартных точечных решений, которые охватывают все формы KYC и мониторинга. К ним относятся такие игроки, как Dow Jones, Thomson Reuters, LexisNexis, Accuity, Actimize и так далее. Есть также некоторые новые решения для стартапов со встроенным машинным обучением, такие как Signal8, Rapid7, Arachnys, Quantexa, DDIQ, Thetaray, ComplyAdvantage и многие другие.

Некоторые из них являются чистым SaaS и работают только в облаке, и это не работает для крупных банков прямо сейчас, но со временем выигрыш игроков в локальной среде и SaaS будет перекрещиваться, и все будет гибридным облаком.

В упрощенном ландшафтном представлении в таблице ниже показаны четыре основных типа скрининга рисков AML, а также модели машинного обучения, поставщики данных и технические поставщики, связанные с каждым типом скрининга.

Почему модели скрининга рисков приносят наибольшие выгоды

Модели риска управляют рабочими нагрузками

В KYC и AML существует множество различных моделей риска, они во многом зависят от классического машинного обучения и проблем NLP, таких как извлечение сущностей, сопоставление сущностей, связывание именованных сущностей, ковровая классификация, обучение ранжированию и фильтрации различных поисковых запросов поверх контента и предупреждений. из правил двигателей.

При подключении клиентов, постоянном мониторинге, фильтрации платежей или мониторинге транзакций рабочая нагрузка, с которой имеют дело аналитики и исследователи, создается из механизмов запросов или механизмов правил. Если модели, лежащие в основе этих механизмов проверки, наивны, они генерируют множество ложных срабатываний, которые аналитики могут проверить.

Каждая проблема скрининга рисков - это возможность для ложных срабатываний, и самая большая возможность продемонстрировать эффективность приходит в самых сложных задачах с композицией моделей. Примером этого является отрицательный просмотр СМИ, когда модели просмотра СМИ разбиваются на множество других моделей - сопоставление сущностей, классификация тем и моделирование отношений и обвинений.

Самая большая победа - это композиция модели; пример показа Adverse Media

При отрицательной проверке СМИ цель состоит в том, чтобы выяснить, причастна ли проверяемая организация к какому-либо риску финансового преступления. Эта цель миссии порождает много интересных задач НЛП. Некоторые из них носят общий характер, например, обнаружение и устранение сущностей, а некоторые относятся к конкретным отраслям, например, идентификация рисков финансовых преступлений и выявление причастности. Наша система идентифицирует рискованные объекты (те, которые связаны с окружающим текстом) непосредственно в неструктурированном тексте, и это позволяет нам сосредоточиться непосредственно на наиболее важных частях текста. Наши модели машинного обучения определяют расположение текста, связанного с риском финансовых преступлений, и помещают этот риск в нашу таксономию Федеральной комиссии по связи примерно 30 типов преступлений. Затем мы определяем уровень вовлеченности организации в риск финансового преступления - другими словами, стадию обвинения, до которой перешел риск финансового преступления в отношении организации.

Люди и инфраструктура; Модели риска в производстве

Проблемы с AML на базе искусственного интеллекта в производственной среде

Медленное развертывание новых моделей машинного обучения может быть связано с тестированием и проверкой моделей, обучением и обучением или развертыванием технологии в локальной устаревшей технологической среде.

Когда машинное обучение используется для моделей риска серьезных производственных финансовых преступлений, модели не могут быть просто развернуты при внесении изменений. Модели должны быть в виде белого ящика, полными, с воспроизводимыми результатами как внутренними аналитиками банка, так и сторонними аудиторскими фирмами, и строгие записи всех оценок моделей должны передаваться в банк с каждым выпуском. Эти развертывания также представляют дополнительную сложность описания обновлений модели и любых влияний на пользовательский интерфейс для аналитиков финансовых преступлений.

Модели финансовых преступлений внедряются менее строго и медленнее по сравнению с той строгостью, которая стоит за развертыванием критически важных моделей в таких местах, как Google или хедж-фонды, или с тем, что вы могли бы увидеть в модели андеррайтинга при кредитовании или страховании. Частично это происходит из-за того, что финансовые преступления являются частью правового риска, а не больше как часть группы количественного моделирования рисков. Эти так называемые проекты «проверки модели» могут стоить сотни тысяч долларов гонораров за внешний аудит со стороны Большой четверки, замедлять цикл выпуска продукции и предоставлять слишком мало данных оценки, чтобы обеспечить реальную статистическую уверенность в производительности и свойствах системы. модели риска.

Наконец, есть проблемы с развертыванием. Развертывание облака в крупных финансовых учреждениях не представляется возможным в ближайшем будущем. Для этого требуются сложные и продуманные архитектуры, в которых модели машинного обучения всегда обучаются в наилучшей возможной среде, а сложность моделей, обученных в непрозрачных средах (- где инженеры данных не имеют видимости) - сводится к минимуму. Мы недооценили, как медленно эта зрелость развертывания превратится в кубернет из старой школы. Кажется, что все больше банков переходят на такие вещи, как кубернеты, но неясно, что доступно для основных критически важных систем. Нам пришлось развернуть систему с использованием довольно старых технологий.

Использование данных с золотой аннотацией - серьезная проблема с моделями машинного обучения для скрининга рисков. Существует много проблем с использованием данных с внутренними аннотациями внутри банка, и мы часто сталкивались с необходимостью нанимать независимых аналитиков для создания внешних наборов данных для обучения моделей машинного обучения в отношении финансовых преступлений. Это хорошо работает для многих проблем и KYC, когда вам не нужны проприетарные данные транзакций и вы можете легко найти миллионы идентификаторов по всему миру для тестирования. С другой стороны, с данными о транзакциях проблема заключается в обучении моделей с данными PII, которые не могут выйти за рамки институциональных границ. Одна из областей, где у нас есть некоторая сложность, - это прийти к каноническому определению существенности риска. Некоторые банки могут определить конкретную новостную статью как потенциально опасную для человека, в то время как другой банк может с этим не согласиться.

«Это проблема людей, а не технология»

Некоторые люди говорят, что автоматизация и машинное обучение не помогут решить проблему отмывания денег, поскольку коррумпированы вовлеченные в цикл люди, как в случае с BNP. Мы не согласны. Автоматизация большего количества рабочих процессов и большая часть скрининга рисков, основанная на машинном обучении, а не на человеках, оставляет гораздо менее уязвимую поверхность. Вы не можете подкупать модели и код, вы можете подкупать только людей.

Приведет ли автоматизация к потере работы?

Да, модели риска увеличатся и увеличатся, а вместе с ними и потеря рабочих мест на основе роста производительности. Останется много высококвалифицированных аналитиков по финансовым преступлениям, а ML предоставит гораздо более эффективные инструменты для проверки рисков и автоматизирует их рабочий процесс. Они будут тратить больше времени на изучение рискованного контента и выполнение работы, которая больше похожа на расследование, чем на черную проверку результатов проверяющих рисков.

Однако важно помнить, что они действовали исходя из завышенной базовой линии. По мере того, как расследование было завершено, системы оказались недостаточно эффективными, поэтому численность персонала вышла из-под контроля. Итак, то, что мы наблюдаем сейчас, на самом деле больше возврата к чему-то, что выглядит нормально, что намного лучше при обнаружении риска, работая поверх более эффективных систем.