Как обнаружить отмывание денег с помощью сетей знаний и рассуждений

Заговоры и схемы преступников постоянно развиваются, стремясь быть на шаг впереди гражданского общества, но все усилия законопослушного населения делают это все труднее. Недобросовестные были вынуждены расширить свои усилия, чтобы избежать захвата, тратя больше времени и энергии на сохранение своего недавно приобретенного богатства, помимо того, чтобы просто украсть его в первую очередь. Столкнувшись с этим затруднительным положением, они часто обращаются к отмыванию денег - процессу, с помощью которого «очищаются» незаконные «грязные» деньги, позволяя их владельцу свободно тратить их.

Вообще говоря, есть три этапа отмывания денег:

Размещение
Наслоение
Интеграция

Во-первых, размещение - это способ вложения денег, полученных незаконным путем, в финансовую систему через банк, магазин или любой другой законный бизнес. Последний, интеграция, является заключительным актом, когда недавно очищенные деньги участвуют в законной транзакции - проверке процесса. Хотя обе темы сами по себе интересны, наши интересы заключаются в наполнении этого мошеннического бутерброда, и мы можем предложить некоторое облегчение.

Наслоение - это фактический процесс «очистки», практика, с помощью которой деньги удаляются все дальше и дальше от преступления, шаг за шагом. Этого можно достичь бесчисленным множеством способов - от покупки физических товаров, таких как золото, драгоценные камни или произведения искусства, до изготовления услуг для предприятий с минимальным оформлением документов, таких как автомойка. Один из самых простых и эффективных - это копирование денег.

С помощью этого метода грязные деньги передаются от одного мошенника к другому, от другого и так далее, пока в конечном итоге их история не будет запутана и они не станут чистым законным платежным средством. На первый взгляд может показаться, что эту закономерность относительно легко идентифицировать, но есть веская причина, по которой она все еще поражает финансовый сектор - огромные масштабы и вычислительная сложность выявления нескольких подозрительных транзакций среди сотен и тысяч происходящих законных транзакций.

Решением проблемы часто выступают крупномасштабные решения машинного обучения, которые действительно дают хорошие результаты при столкновении со сложными схемами. Однако для простых случаев, таких как кража денег, это чрезмерно и не дает гарантии обнаружения известных закономерностей - потенциально упускает то, что очевидно для систематического подхода. Графики знаний и рассуждения представляют собой привлекательную альтернативу, и лучшим в своем классе является RDFox с его высокопроизводительными возможностями.

Испытания на обнаружение денежных потоков

Скажем, например, существует преступная группировка, использующая мулов, некоторые члены которой известны институтам как менее моральные, а об остальных не подозревают. Задача состоит в том, чтобы идентифицировать всю группу, не втягивая в нее ни в чем не повинных людей. Чтобы добиться этого, мы можем посмотреть на их банковские переводы - выявить денежные потоки, которые связывают преступников.

Независимо от метода, который мы выбираем для решения этой проблемы, первым шагом является сбор основных компонентов транзакций, а именно даты, суммы, отправителя и получателя - информации, которую организация могла бы легко получить.

В конечном итоге мы стремимся определить денежные потоки, которые передают богатство от одного правонарушителя к другому - известному или нет. На самом деле редко можно увидеть, чтобы вся сумма была передана в рамках одной транзакции, но поскольку это мало меняет нашу методологию, и ради ясного объяснения мы будем действовать так, как если бы это было обычным делом. Сказав это, это важный элемент настоящего мошенничества, поэтому было бы небрежно замалчивать его полностью. Практика разделения общей суммы известна как «структурирование» или «смурфинг» и часто используется параллельно с мулами. Мелкие транзакции гораздо более распространены, чем более крупные, поэтому учреждениям невозможно выделить те же ресурсы для их отслеживания. В результате злоумышленникам намного проще скрыть несколько мелких транзакций, чем одну крупную.

Имея в виду нашу цель, мы должны определить, что связывает смежные транзакции таким образом, чтобы они были одинаково вредоносными. Самая главная собственность, конечно же, - это совместно используемый партнер, являющийся бенефициаром одного и создателем другого. Отсюда мы выберем другие функции с некоторым допустимым отклонением и начнем формировать цепочки из этих проблемных транзакций. Именно в этих оставшихся деталях и их толерантности возникают проблемы, и аргументация преобладает.

Не требуется криминального вдохновителя, чтобы затруднить соединение точек, поэтому банды часто используют разные стратегии, чтобы замаскировать цепи или исказить их настолько, чтобы проскользнуть незамеченными. Есть несколько распространенных ловушек в отношении вышеупомянутых деталей транзакции, на которые мы хотели бы обратить внимание. Они подчеркивают тот факт, что система с аргументацией идеально подходит для такой проблемы, и почему решения без нее такие громоздкие и медленные. Во-первых, переводимая сумма обычно отличается от ссылки к звену, а во-вторых, порядок, в котором происходят транзакции, не обязательно должен соответствовать порядку самой цепочки. Например, физическое лицо может платить вперед до получения своего депозита.

Можете ли вы обнаруживать закономерности без рассуждений?

На первый взгляд может показаться, что пути к свойствам SPARQL представляют собой вполне адекватное решение. Однако есть серьезный недостаток: мы не можем наложить условия на сумму транзакции и не имеем возможности отслеживать движение средств как совокупную сумму. В конечном итоге мы создадим бесконечное количество цепочек, подавляющее большинство из которых будут содержать невинных прохожих, которые случайно обменивались деньгами с нашим известным преступником. Из-за того, что мы не можем включать дополнительные переменные в пути к свойствам, невозможно отличить злонамеренное предоставление 10 000 долларов США от подарка 10 долларов США на день рождения племянницы. Несмотря на несоответствие, это будет добавлено к цепочке из-за роли теневого человека. Это только усиливается по мере развития цепи, начиная связывать невиновных с невиновными, отмечая их обоих как подозрительных. Ясно, что здесь есть проблема.

В качестве альтернативы мы могли бы использовать серию запросов INSERT, которые имитируют процесс рассуждений, каждый из которых добавляет дополнительные связи или детали. Однако проблема здесь в масштабе. Даже если мы ограничим максимальную длину цепочки (что мы и сделаем), производительность будет иметь такой удар из-за повторной обработки, что достижение результатов за любой разумный промежуток времени будет невозможно. В довершение ко всему, запросы должны быть выполнены в правильном порядке, чтобы цепочка могла быть получена должным образом, поскольку потеря методического перечисления здесь приведет к фрагментации цепочки без возможности ее полной сборки.

Как обнаруживать цепочки с помощью рассуждений и RDFox

Как видите, простое и необоснованное обнаружение этих закономерностей - задача неоправданно сложная, переходящая в область нереалистичной. Однако с рассуждениями все становится намного проще.

Прежде всего, мы можем пометить транзакцию, в которой участвует подозрительная сторона, как подозрительную. Этот единственный транзакционный узел можно рассматривать как цепочку длиной 1, которая затем становится якорем, из которого мы строим остальную часть цепочки, добавляя последующие транзакционные узлы, которые соответствуют критериям. Предполагая, что наш якорь не всегда находится в начале или в конце цепочки, мы должны смотреть как вперед (на получателя), так и назад (на создателей), чтобы увидеть всю картину. При этом мы создаем две субцепи, каждая из которых исходит из подозрительной транзакции в противоположных направлениях по всей цепочке.

Как описано ранее, нам нужно определить, что связывает две транзакции, и снова наиболее очевидным свойством является то, что бенефициар одной является отправителем другой. Следующим шагом является обеспечение схожести значений на каждом узле - теперь это очень простая задача. При указании допуска все подходящие пары транзакций будут найдены постепенно. Затем субцепи начинают принимать форму, когда мы добавляем еще одно ограничение, теперь уже на временные рамки, в которых они возникли. Нам не нужно указывать какие-либо детали заказа, просто то, что они имели место в определенный период - не считая обменов, которые произошли с разницей в несколько лет, но которые соответствуют другим ограничениям. Этот процесс продолжается до тех пор, пока не закончатся подходящие транзакции или мы не достигнем установленного нами ограничения на длину цепочек.

Наконец, когда две цепочки завершены - одна начинается с подозрительной транзакции, а другая заканчивается ею, - мы объединяем их, создавая целую цепочку, охватывающую все преступное кольцо.

Благодаря логическим возможностям RDFox весь этот процесс выполняется без проблем и масштабируется с большими объемами данных, как и следовало ожидать в реальном сценарии. Всегда важно, чтобы скорость была поддержана, а правила означают, что система легко поддается обработке и может быть настроена для достижения наилучших результатов.

Масштабирование решения

Как мы отмечали ранее, решения часто страдают в результате колоссального масштаба операций, но это не относится к RDFox. Применив наш подход к небольшому набору данных, мы захотели расширить границы, расширив нашу четырехъядерную систему до 100-ядерной, способной обрабатывать сотни миллионов транзакций. Мы наблюдали почти линейное масштабирование - отличную демонстрацию того, почему RDFox представляет собой серьезный ответ на призыв к предотвращению мошенничества.

Обнаружение мошенничества с помощью машинного обучения

Другое громкое имя в области обнаружения мошенничества - машинное обучение, подход, который предлагает ряд преимуществ, которых не может предоставить граф знаний, даже если он имеет логическое обоснование. Однако мы не собираемся сегодня рассказывать вам о нашем решении для машинного обучения, потому что то же самое работает в обоих направлениях.

Алгоритмы машинного обучения исследуют поведение населения, позволяя распознавать нюансы, позволяющие отличить неизвестные сложные схемы от активности обычных людей, что само по себе может вызывать недоумение. Хотя в силу своей природы этим моделям не хватает возможности последовательно находить все случаи структурированного шаблона и вместо этого предоставлять результаты с определенным уровнем уверенности. Этого можно полностью избежать, если использовать рассуждения. Логика, встроенная в RDFox, может и будет безошибочно идентифицировать каждый экземпляр шаблона, прочесывая мелкие детали. Невозможно переоценить, насколько это важно в борьбе с распространенным мошенничеством, гарантируя, что ничего не будет упущено.

Есть неоспоримые преимущества, которые связаны с тонкостями машинного обучения, но в них также есть подводный камень. Алгоритмы чаще всего рассматриваются как черные ящики для тех, кто их использует, но не проектировал их, поскольку входной барьер невероятно высок. Это настоящая проблема, если принять во внимание ставки. Ошибочное решение будет означать, что невиновный человек обвиняется в мошенничестве и может незаслуженно увидеть финансовые, если не уголовные, последствия. Становится трудно отстаивать свое решение, не зная, как оно было достигнуто. Эта проблема исчезает с использованием правил, поскольку они очень просто создают серию логических утверждений и выводов, которые можно легко понять без права на ошибку.

Конечно, мы никогда не утверждали, что рассуждение было единственным решением; Однако это просто. Он не заменит машинное обучение, способное обнаруживать сложные, но пока еще неизвестные схемы мошенничества, но оно охватывает основы того, что должны делать банки. Паттерны, изученные с помощью машинного обучения, позже можно превратить в поиск по выполняемым правилам. Многие считают это минимальным требованием, но оно часто остается незамеченным - что мы считаем непростительным в свете имеющихся ресурсов.

Следующим шагом будет объединение машинного обучения и рассуждений на основе графа знаний - двух подходов с противоположных концов спектра. Это создало бы всеобъемлющую систему, способную на гораздо большее, чем любой метод по отдельности. RDFox - главный кандидат на роль базовой базы данных. Его непревзойденная скорость и производительность делают его идеальным помощником для интенсивных алгоритмов машинного обучения, особенно при обработке огромных объемов данных, оказывая поддержку и добавляя ценность независимо.

Подбрюшье общества всегда будет пытаться обмануть и обмануть публику, поэтому мы должны стремиться сделать это как можно труднее, поймав в процессе тех, кого мы можем. В крысиных бегах нет победы, но цель этой статьи - показать, что это гонка, которую мы можем не просто вести, но и убедительно вести. Рассуждения можно использовать, чтобы заполнить последние бреши в нашей защите, выявляя закономерности, подобные тем, которые наблюдаются в сетях обмена деньгами; и на этом наше преимущество запечатано.

Шаблоны, как простые, так и сложные, легко обнаруживаются с помощью RDFox благодаря его правилам, состоящим исключительно из логических операторов. Такая система гарантирует, что отслеживается каждый экземпляр указанного шаблона - единственное требование - указать шаблон заранее. Имея эту информацию, нет предела тому, на чем мы можем сосредоточиться, и мы, конечно же, не собираемся останавливаться на достигнутом.

Если вы знаете о подобной проблеме или просто хотите узнать, что умеет RDFox, вы можете попробовать его бесплатно здесь! Мы всегда открыты для новых идей, поэтому не стесняйтесь обращаться к нам, если вы хотите обсудить что-нибудь еще.

Для получения дополнительной информации о RDFox посетите сайт OST или наш блог.

Команда и ресурсы

Команда Oxford Semantic Technologies начала работать над RDFox в 2011 году на факультете компьютерных наук Оксфордского университета с убеждением, что гибкое и высокопроизводительное рассуждение является возможностью для приложений с интенсивным использованием данных без ущерба для правильности результатов. RDFox - это первый готовый к выходу на рынок граф знаний, разработанный с нуля с учетом аргументов. Oxford Semantic Technologies является дочерней компанией Оксфордского университета и пользуется поддержкой ведущих инвесторов, включая Samsung Venture Investment Corporation (SVIC), Oxford Sciences Innovation (OSI) и инвестиционное подразделение Оксфордского университета (OUI). Автор горд быть членом этой команды.