Финансовые преступления всегда были серьезной проблемой для финансовых учреждений[1]. Борьба с мошенничеством требует дорогостоящего аппарата алгоритмов, технологий и оборудования, которые необходимо постоянно обновлять. Кроме того, когда мошенническая деятельность, такая как отмывание денег, не может быть обнаружена, это может привести к санкциям со стороны регулирующих органов.

Существующие системы обнаружения и предотвращения преступных транзакций основаны на анализе исторических данных. Хотя считается, что анализ прошлого обеспечивает прочную основу для прогнозирования будущего, можно предположить, что эта методология является несколько неполной из-за отсутствия статистических данных, которые должным образом учитывают неизвестные будущие технические преобразования и настройки [2]. Таким образом, утверждается, что для обнаружения будущих угроз отмывания денег использование моделей синтетического моделирования, вероятно, будет лучшим решением. Этот метод, основанный на создании наборов искусственных данных, которые стремятся воспроизвести статистические характеристики данных реального мира, скорее всего, обеспечит более полный спектр информации, устраняя разрыв между историческими данными и неизвестными будущими данными» [3].

Кроме того, машинное обучение может радикально повысить производительность моделирования синтетических данных. Существуют две основные проблемы, влияющие на системы, основанные на исторических данных: неполнота информации, используемой для моделирования будущих транзакций, и ограничения, налагаемые на ее сбор правилами конфиденциальности. Как только они будут преодолены с помощью моделирования синтетических данных, станут доступны большие потоки данных с более высокой прогностической ценностью для финансовых преступлений.

Статус-кво

Современные системы обнаружения и предотвращения основаны на исторических данных, которые банки собирают в течение многих лет. Таким образом, они создают многочисленные надежные индексы, которые затем используются для прогнозирования будущих сценариев и мониторинга их собственных операций с целью выявления подозрительных транзакций. Тем не менее большое количество транзакций ускользает от обнаружения, оставаясь скрытыми; собранные данные могут только помочь отличить так называемые ложные срабатывания от истинных срабатываний, причем последние представляют собой действительно криминальные денежные потоки»[4]». Другими словами, остаются ложноотрицательные транзакции — транзакции, которые кажутся чистыми, но на самом деле являются таковыми только из-за отсутствия соответствующего индекса, который мог бы пометить их как потенциально преступные.

Более того, недостаточно иметь систему, которая при оценке транзакций просто квалифицирует их как истинно положительные или ложноположительные. Это ограниченный взгляд, который не оставляет достаточно места для улучшения методов обнаружения отмывания денег[5]. Отсутствие творчества, мудрости будущего и разнообразия в анализе исторических данных препятствует его успешному использованию в этом контексте, поскольку эти функции необходимы для прогнозирования большинства, если не всех, потенциальных будущих преступных операций.

Технология машинного обучения и улучшения, которые она предлагает для синтетических имитационных моделей

На практике существующий подход к «симуляции» можно описать как автоматизированную видеоигру. Результатом является проектирование будущих смоделированных сценариев путем интеграции «ограниченных» исторических данных с синтетическими данными, собранными в большем масштабе с помощью машинного обучения.

По сути, различные типы виртуальных агентов с соответствующими ролями в финансовых транзакциях запрограммированы на взаимодействие друг с другом. Это называется агентным моделированием. Таким образом, неизвестные виды мошенничества придумываются и включаются в данные. Данные являются синтетическими, поскольку они получены не из транзакций, ранее совершенных реальными людьми, а из сценариев, которые может генерировать программное обеспечение для машинного обучения [6]. Этот метод дополняется алгоритмами самообучения, которые автоматически предоставляют новые согласованные наборы данных из ранее доступных данных.

Информация и индексы обнаружения, полученные таким образом, теоретически являются более полными и более широкими по сравнению с историческими методами. Синтетические модели данных объединяют как прошлые, так и все будущие финансовые транзакции, которые возможно представить с помощью моделирования виртуальных агентов, тогда как анализ исторических данных охватывает все транзакции, которые действительно произошли в данный момент времени, согласно доступной информации. Этот процесс может быть дополнительно развит с использованием машинного обучения [7] для уточнения синтетических данных, созданных агентами, что позволит создать более точные сценарии и индексы обнаружения. Системы мониторинга определенно могут получить больше преимуществ от агентного моделирования[8].

Машинное обучение лежит в основе искусственного интеллекта (ИИ), технологии, основанной на алгоритмах (алгоритмы обучения), которые постоянно совершенствуются, начиная с ввода данных (данные обучения). Этот процесс позволяет программному обеспечению постепенно лучше находить конкретные связи между информацией по мере предоставления большего количества данных.

Таким образом, представляется, что качество данных имеет ключевое значение. В целом, чем более конкретным, уместным и полным является исходный набор данных, тем выше вероятность получения релевантных результатов в процессе машинного обучения. Например, важно найти эффективные способы оценки качества данных, чтобы избежать умножения и повторения ошибок, связанных с первоначальными входными данными, в новых шаблонах, полученных в результате алгоритмической обработки. Предвзятые данные не являются объективными, и их пригодность для выявления финансовых преступлений снижается[9]. Поскольку существуют также серьезные ограничения как в отношении количества данных, собираемых банками, так и в отношении их использования по причинам защиты прав собственности[10] и конфиденциальности[11], неудивительно, что имитация синтетические данные могут быть даже более привлекательными, чем было заявлено до сих пор.

Проблемы конфиденциальности

Компании, обрабатывающие персональные данные, должны принять ряд мер, чтобы гарантировать права людей, которым принадлежат данные»[12]». Это ограничивает объединение транзакционной информации в реальном мире. Отсутствие таких ограничений является огромным сравнительным преимуществом для новых систем, зависящих от искусственного моделирования [13].

Можно утверждать, что на методы получения исторических данных больше влияет регулирование конфиденциальности, чем на подходы, основанные на синтетических цифрах, поскольку для лучшего функционирования первые должны получать огромные объемы данных реальных людей»[14]. ». Когда речь идет о конфиденциальных данных клиентов, эта проблема усугубляется, поскольку перед обработкой данных необходимо получить официальное согласие [15]. Более того, еще одним существенным препятствием, связанным с конфиденциальностью, является ограниченная доступность потоков данных с открытым исходным кодом, что делает еще более дорогим, а иногда и невозможным получение желаемого количества и качества данных [16]. Напротив, хотя этот вопрос заслуживает дальнейшего изучения, можно отметить, что представленная методология моделирования не полностью полагается на личную информацию, поскольку запрограммированные агенты не являются реальными людьми; их взаимодействия планируются на абстрактном и теоретическом уровне, что создает новые самостоятельные потоки данных. Реалистичные наборы синтетических данных, созданные посредством виртуальных взаимодействий, не содержат никакой дополнительной информации о клиентах и ​​не требуют раскрытия информации ни в юридических, ни в личных целях, связанных с транзакциями. Моделирование на основе агентов, по сравнению с анализом исторических данных, несомненно, было бы улучшением в отношении защиты личной информации, поскольку оно использует реальные данные только для начала работы.

В контексте после GDPR [17], когда многие организации предпочли бы уменьшить свою зависимость от обработки персональных данных, использование симуляторов для создания синтетических данных может оказаться наиболее безопасным и экономичным методом в долгосрочной перспективе[ 18]. Этот тип данных также будет наиболее подходящим для машинного обучения.

Заключение

Мошеннические финансовые операции вызывают серьезную озабоченность, поскольку они развиваются со временем вместе с технологиями. Кроме того, стали более действенными методы выявления преступных операций, таких как отмывание денег. Однако благодаря синтетическому моделированию, применяемому в сочетании с машинным обучением, текущие проблемы могут быть преодолены, что приведет к улучшению предотвращения и выявления финансовых преступлений.

Этот метод синтетического моделирования снижает зависимость от больших персональных данных, что позволяет избежать серьезных проблем с соблюдением конфиденциальности. Использование искусственных данных, на первый взгляд согласующееся с недавними нормами о конфиденциальности, снижает затраты на соблюдение требований по защите (реальной) информации о клиентах и, возможно, что более важно, на получение данных, если они не принадлежат самой компании. Если затем машинное обучение сможет работать с данными, собранными вышеописанным способом, можно будет существенно увеличить количество и качество как самого потока данных, так и применяемых к нему методов анализа.

Примечание автора. Я хотел бы поблагодарить Эдгара Лопеса Рохаса за его вдохновляющую речь и последующий вклад в мое исследование

[1] Цифровизация сделала отмывание денег все более изощренным. Это привело к росту затрат на проведение мероприятий по предотвращению этих форм преступности.

См. Раскрытие скрытых финансовых преступлений с помощью расширенного моделирования, план от Simudyne, опубликованный в июле 2019 года, доступный по адресу: https://simudyne.com/wp-content/uploads/2019/06/Uncovering-hidden-fraud-web. pdf, по состоянию на 15 ноября 2019 г.

См. также Б. Монро, Global Cost of Fraud Tops £3 Trillion, Accountancy Daily, май 2018 г., доступно по адресу: https://www.accountancydaily.co/global-cost-fraud- tops- 3 трлн, по состоянию на 22 апреля 2019 г.

[2] Э. А. Лопес Рохас, А. Сани, К. Барно, Преимущества симулятора PaySim для улучшения контроля финансового мошенничества, Норвежский университет науки и технологий, 2019.

[3] Там же.

[4] См. Раскрытие скрытых финансовых преступлений с помощью расширенного моделирования, сноска. 1.

[5] Там же.

[6] Е. А. Лопес-Рохас и Э. Зото, Подход тройной спирали к исследованиям по борьбе с отмыванием денег (БОД) с использованием методов генерации синтетических данных, 10-я Международная конференция по обществу и информационным технологиям: ICSIT 2019 , 2019.

См. также: Е. А. Лопес-Рохас, С. Аксельссон, Д. Гортон, «RetSim: агентское моделирование обувного магазина для обнаружения мошенничества», 25-й Европейский симпозиум по моделированию и моделированию, номер c, 2013, Афины, с. 10.

А также Е. А. Лопез-Рохас, С. Аксельссон, «Обнаружение отмывания денег с использованием синтетических данных», Жюльен Карлссон, Ларс; Бидо, редактор, The 27th Workshop of (SAIS), 2012, Orebro, Linkoping University Electronic Press, стр. 33–40.

Наконец, Е.А. Лопес-Рохас, С. Аксельссон, «Многоагентное моделирование (MABS) финансовых транзакций для борьбы с отмыванием денег (AML)», Аудун Джосанг и Бенгт Карлссон, редакторы, Nordic Conference on Secure IT Systems, 2012, Карлскруна, стр. 25–32.

[7] В машинном обучении разработчик программного обеспечения для моделирования вручную создает исходные алгоритмы, которые формируют строительные блоки, из которых выводятся новые правила. Новые алгоритмы берут начало из существующих без какого-либо вмешательства, устанавливая новый слой инструкций для выполнения компьютером. Это означает, что, начиная с исходных данных, компьютеры получают инструкции по новым задачам с помощью новых алгоритмов в постоянном и экспоненциальном процессе, который производит новую информацию, согласующуюся с предыдущими входными данными. Основная функция машинного обучения — передавать обучающие данные в алгоритм обучения, автоматически создавая новые модели, протоколы, задачи и действия.

См. Интернет-сообщество, Искусственный интеллект и машинное обучение: аналитический документ, 18 апреля 2017 г., доступно по адресу: https://www.internetsociety.org/resources/doc/2017/artificial-intelligence-and-machine-learning-policy. -paper/?gclid=EAIaIQobChMI4dHs-c_25QIVCbDtCh2Mag_iEAAYAiAAEgITCfD_BwE#_ftn6, по состоянию на 20 ноября 2019 г.

[8] См. E. A. Lopez-Rojas, A. Sani, C. Barneaud, Advantages of the PaySim Simulator, fn. 2 и 3.

[9] Технический взгляд на то, что обсуждается, можно найти в RJ Mooney, Comparative Experiments on Disambiguating Word Senses: An Illustration of the Role of Bias in Machine Learning, декабрь 1996 г., загружаемый по адресу arXiv:cmp-lg. /9612001, по состоянию на 22 ноября 2019 г.

[10] Проблема установления права собственности на данные подчеркивает, что чем больше ценность данных становится, тем меньше стимулов для создания платформ с открытым исходным кодом. Это сделало бы все большие объемы данных общедоступными, предлагая возможности для сбора больших данных в интересах новых инициатив.

Для получения дополнительной информации см. H. Varian, Open source and open data, 12 сентября 2019 г., доступно по адресу: https://blog.google/technology/research/open-source-and-open-data/.

[11] См. выводы, сделанные в E. A. Lopez-Rojas и E. Zoto, Triple Helix Approach for Anti-Money Laundering (AML) Research, fn. 9.

[12] Общее положение о защите данных №. 2016/679 (GDPR), вступивший в силу в июле 2018 года, устанавливает единые стандарты защиты при обработке данных во всех государствах-членах Европейского Союза. Кроме того, Европейская хартия основных прав подтверждает право на неприкосновенность частной жизни в ст. 7, отличая его от права на защиту данных, указанного в ст. 8.

[13] Возможные решения проблем (имеющих отношение к данной статье), связанных с обработкой больших персональных данных в рамках GDPR, см.: EA Lopez-Rojas, D. Gultemen, E. Zoto, On the gdpr внедрение в ЕС и его влияние на исследования финансового мошенничества, на 30-м Европейском симпозиуме по моделированию и моделированию-EMSS, 2018 г., Будапешт.

[14] Там же.

[15] См. ст. 9 GDPR, озаглавленной Обработка особых категорий персональных данных, абз. 2(а).

[16] См. предыдущую сн. 15

[17] Общий регламент ЕС по защите данных

[18] См. Раскрытие скрытых финансовых преступлений с помощью расширенного моделирования, сноска. 1.

Об авторе:

Доменико Пирс Де Мартино — президент и исследователь финансовых технологий OFLS, а также кандидат на степень магистра права и финансов (2020 г.) Оксфордского университета.

О редакторе:

Вайбхав Манчанда окончил экономический факультет Чикагского университета и получил степень бакалавра юридических наук (2021 г.) в Оксфордском университете.