1. 들어가며
최근 세간의 블록체인에 대한 관심이 높아짐에 따라 머신러닝 분야에서도 이에 대한 연구 가 활발히 진행되고 있다. Система обнаружения мошенничества (Fraud Detection System, FDS), 가상자산 가 격 예측, 거래소 주소 식별, NFT 공정가 예측 등이 있는데 이들 중 가장 많은 연구가 이루어진 분 야는 FDS일 이다. 실제로, 악의적인 의도를 가진 많은 스캐머는 블록체인의 익명성을 악용하여 비트코인, 이 더리움을 통해 폰지 사기, 스캠 사기, 자금 세탁 등을 자행하고 있다. 미국의 블록체인 데이터분석 업체인 Chainalysis에 따르면 [5], 2021년도에 가상자산을 통한 스캠 범죄 피해액은 약 80억 달러에 달한다고 한다. 이는 전년도인 2020년에 비해 약 80% 증가한 수치이다. 다수의 가상자산 거래소에서는 이 같은 범죄를 예방하기 위해 부정거래 탐지 솔루션을 연 구 개발하여 발전시키고 있다 [6], [7]. 알려진 바에 따르면, 국내의 한 암호화폐 거래소에서는 머신러닝 기반으로 가상자산에 대 한 이상금융거래 탐지 솔루션을 서비스에 도입했다고 한다 [8]. 나아가, 거래소 뿐만 아니라, 블록체인 전문 기업 [17], [18] 에서도 머신러닝 기반의 암호화폐 에 대한 부정거래 탐지 연구를 진행하고 있고, 이들 중 웁살라시큐리티는 현재 개발된 솔루 을 상용화한 사실을 공개 한 바 있다.
하지만 사실 국내 타 금융권에서는 이미 몇년 전부터 머신러닝 기반 이상거래 탐지 연구를 진행해왔다. 2013년에 금융위원회가 ‘금융 전산 보안강화 대책’을 통해 금융권에 FDS 구축을 권고함에 따라, 주요 은행사에서 이상금융거래 탐지 시스템을 개발해왔다. 2018 г. 다 [9]. 이들 중 신한은행 [11], 카카오페이 [14] 등에서는 이미 머신러닝 기반으로 FDS를 연구 및 개발하 고 있는 것으로 보도 바 있다.
머신러닝 기반 FDS는 룰 기반의 그것보다 다음 같은 이점을 가질 것으로 기대된다는 점에서 발전 가능성이 크다고 보여진다.
- ML 접근은 부정거래 탐지 전문가 집단의 지식에 의존하지 않고 기계가 데이터를 경험적으로 학습하기 때문에 FDS 개발에 요구되는 비용, 시간적인 자원을 절약할 수 있다.
- 룰 기반 시스템은 인간이 입력한 조건에 의해 작동하기 때문에 새로 입력되는 정상/사기 패 턴에 대한 식별 조건 업데이트가 자동으로 이루어지지 않는다. ML 기반 시스템은 새로 입력되는 데이터를 경험적으로 학습하여 분류하기 때문에 Concept Drift 을 용이하게 대응할 수 있다.
- ML 기반 시스템은 인간이 감지하지 못하는 미묘한 사기 패턴까지도 학습하여 식별하기를 기대할 수 있다.
물론, ML 기반 시스템을 도입할 때 마주할 수 있는 곤경도 있다. 가장 도전적인 어려움은 전문가 시스템과 달리, ML 시스템은 정상/사기 여부가 라벨링된 데 이터가 요구된다는 점일 것이다. 사실 이것은 거의 모든 분야에서 ML 시스템을 구축할 때 마주하는 어려움이다. 하지만 블록체인 분야는 비교적 쉽게 데이터를 얻을 수 있다. 블록체인의 투명성을 이용해 원하는 모든 트랜잭션 데이터에 접근할 수 있으며, CryptoscamDB [10] 같은 곳에서는 사기 거래에 대한 라벨링 데이터도 제공하고 있기 때문이다. 더욱이, 최근들어 머신러닝 연구 영역에서는 준지도학습(Semi-supervised Learning) 연구가 활발히 진행됨에 따라 소량의 라벨 데이터셋만을 가지고서도 보다 좋은 일반화 성능을 가진 모델 개발을 기대 할 수 있게 되었다.
아래에서 나는 가상자산에 대한 FDS에 대해 공부하면서 읽었던 흥미로운 5가지 연구를 소개한 다. 이 5이터를 이용하여 모델의 사기 탐지 성 능 향상을 위해 더 정보적인 임베딩을 얻을 수 있는 지에 대한 방법을 제안한 연구들이다. Связанные темы 는 그래프 신경망을 응용한 연구를 소개한다.
2. 기존 연구
2.1 Байт-код 활용
[12] 랜잭션 원천 데이터으로부터 얻은 통계적 특징에 이미 잘 알려진 머신러닝 및 신경망 알고리 즘을 적용하는 정도에 지나지 않았다. 이용하는 독창적이고 세련된 아이디어도 제안되고 있다. [1]. 통계량과 트랜잭션의 통계량을 함께 학습시킨다.
또한, [1] 에서는 Gini 이용하여 임의의 지갑 주소의 송수신액의 불평등성을 피처로 계산 한다. 저자는 폰지 사기의 경우 초기 투자자는 투자한 뒤 더 큰 보상을 받을 것이지만, 나중 투자 자는 투자한 뒤 어떤 보상도 회수를 하지 못하는 양상을 보이는데, 이것을 포착하기 위해 지 니 계수를 사용하는 것은 유용할 것이라고 생각 한다.
여기서 a는 분포이고, n은 a 내 участника 개수이다. 위 식에 대한 이해를 돕고자 예를 들자면 아래와 같다.
위 [그림2]에서 볼 수 있듯이, 두번째 그림인 왼쪽의 участник의 스코어가 더 큰 경우 (트랜잭션 사례 Участник 경우 ( 트랜잭션 사례에서는 마지막 거래에 이더를 가장 많이 보내거나 받은 경우)의 지니계수 결 과는 정반대이고, 첫번째 그림과 나머지 그림의 지니계수 절댓값 차이는 비교적 크다. 이는 지니계수의 절댓값은 폰지 사기 패턴에 유사한지 여부를 결정할 때 정보적일 수 있음 을 함축하는 것으로 보인다.
[3]. ]과는 달리, 이 바이트코드를 n-gram으로 분절하여 모델에 학습시킨다. 예를 들어, 0xeaa18152488ce5959073c9c79c89 «ea», «a1», «81», … 이 될 것이다. 이 연구 는 n-грамм 의 n 이 얼마 인지 에 따라서 모델 에 도 유의미 한 변화가 있음 을 보였다. 이 논문의 실험 결과에 따르면, 2-грамм, 3-грамм (Ponzi) 사기 패턴 식별 능력을 얻었다.
2.2 Граф нейронной сети 응용
최근 신경망 기반의 가상자산에 대한 사기 탐지 연구 트렌드는 그래프 신경망을 적용한 방 법론인 것 같다. [4]. 거래 탐지 방법을 제안하기 시작했다. [4].
위 [식1]에 대해 간략히 설명하자면, 여기서 H는 матрица встраивания이고, A는 Матрица смежности, W는 Обучаемый вес를 가리킨다. 시그마는 Функция активации 이다. 이 [식1]은 현재 레이어 (l)에서, AHW를 곱한 뒤 функция активации 을 통과하면 다음 레이어 (l+1)에서의 임베딩 행 렬을 구할 수 있음을 뜻한다.
해당 논문[4]에서 진행한 실험 결과에 따르면, 부정 거래인지 정상 거래인지 여부를 식별하 Логистическая регрессия 델 을 사용할 때 보다 더 좋은 성능을 보인다. 하지만 Random Forest, MLP 모델의 성능이 GCN, Skip-GCN 보다 좋은 경우가 있는데, 저자는 이 결과에 대해 모델 학 Особенности ввода-вывода
[13] 은 Heterogeneous Graph Neural Network. 앞에서 보았던 [4]의 아이디어는 Однородный GNN에 대한 연구였다. 이것은 ‹사기 유형을 가진 nodes› 만을 고려한다 점에서 однородный 하다고 여겨진다. 반면에, [13]에서는 ‹사기 유형을 가진 nodes› 뿐만 아니라 ‹가상자산 거래소 소유 지갑(exchange) 유형 을 가진 nodes› 또한 이용한다는 점에서 гетерогенный 하다고 여겨진다. 이 같이 гетерогенный GNN을 이용하면 모델 학습 시에 однородный GNN 보다 더 информативные признаки를 얻을 수 있다. [13]. 것은 아니지만, 부정 거래라고 의심되는 트랜잭션 및 주소를 탐지하는 데 힌트가 될 것이라 고 가정한다. 그들은 본고에서 мошенничество 탐지 모델을 만들기 위해 이 이질적인 exchange 유형 주소와 мошенничество 유형 주소 간의 «edge-type» 를 구성하는데 사용한다.
저자는 위에서 구성한 edge-type을 동원하여 기존에 제안된 Heterogeneous GNN 모델에 트랜잭션의 통계적 특징과 함께 학습시킨다. 저자가 사용한 피처는 Однородный GNN을 예로 들 때 아래 [그림5]와 같다. 기존 연구들과 유사하게 본 연구에서도 모델 학습을 위해 트랜잭션의 통계적 특징을 이용 인코딩 방식으로 라벨링했다는 점에서는 종래의 연 구와 차이가 있다.
[13] 의 Гомогенный vs Гетерогенный GNN 을 비교한 실험 결과는 아래와 같다.
3. TTAGN (сеть временного агрегирования транзакций)
TTAGN [2]이다. 그 이유는 지갑 주소의 트랜잭션에 대한 Информация о времени 을 모델에 학습시키기 때문일 것이다. 예컨대, 주소가 보낸 이 더 양의 총합, 보낸 이더의 최대값 등)만을 이용했다면, [2]에서는 타깃 주소의 트랜잭션이 시 이 지남에 따라 어떻게 변하는지에 대한 정보를 학습했다는 점에서 특별하다. (실제 논문에서 거래 시간도 особенности 로 사용한다.)
Контекстный контекстный контекст 적, 구조적 특징만을 사용한다면 слабое представление узла 문제가 야기될 수 있다. 즉, 이것은 레코드의 контекстуальный 정보를 활용할 때 만큼 풍부한 представление을 얻지 못함을 함축한다.
이러한 기존 연구의 한계를 극복하기 위해 TTAGN에서는 3 가지 구성 요소로 이루어진 아키텍처 를 소개한다.
- Представление временного края: 이더리움 플랫폼 상의 지갑 주소 간 거래 기록에서 временная информация 을 추출한다.
- Модуль Edge2node (чтобы получить торговые функции): 지갑 주소(node) 사이에 있는 реберное представление 은 네트워크의 топологическое взаимодействие 정보를 더 뒍부하게 하기 위해 агрегация 된다.
- Модуль улучшения структуры: 네트워크의 정보 학습
3.1 Представление границы времени
Мотивация
트랜잭션 정보에는 направление транзакции, сумма, отметка времени 저자는 이 점을 고려하여 거래 레코드의 시간적(временной) 또는 맥락적 (контекстный) 의 Представительство이 향상될 것이라고 말한다.
Предлагаемая идея
그렇다면, временная транзакция 저자는 Transaction이라는 Sequential한 데이터를 처리하기 위해 대중적인 RNN 계열 모델인 LSTM을 사용한다.
위에서 최종적으로 계산된 e(uv)_tilde는 реберное вложение이고, (u,v)는 노드pair를 가리킨다. Вложения 이다. 또한 이 n개의 embedding을 만들기 위해 a(uv)i, t(uv)i 가 input으로 들어가는데 이들은 각각 amount와 timestamp 이다. 저자는 송수신 경우를 구분하기 위해 отправка 경우 сумма를 +로, получение인 경우는 -로 표기한다.
3.2 Модуль Edge2node
Мотивация
이전 연구들에서 사용되어 온 노드 (이더리움 지갑 주소)에 대한 разработано вручную 횟수)은 모델에 представление слабых узлов 만을 제공할 뿐이었다. 하지만 각 지갑 주소는 동시에 여러 다른 주소들과 взаимодействие을 하는데, TTAGN에서는 이 взаимодействие을 представление으로 가공한 다. 이렇게 만들어진 представление 은 각 представление узла에 다른 정보를 제공하는데, 이 정보는 각 월렛 주소의 мошенничество 스코어에 영향을 주기 때문에 모델의 식별 성능 향상에 이점을 제공한다.
Предлагаемая идея
TTAGN은 여러 월렛(узлы)을 둘러싼 트랜잭션(ребра) 금 학습할 수 있게 해준다. 더욱이, Edge2node 모듈에서는 유사한 트랜잭션 행태를 포착하기 위해 Attention 기법을 적용함으로써 торговые функции를 생성하게 해준다. 이 edge2node включает в себя края и веса, а также выразительные представления узлов.
Edge2node 에서 Attention을 적용하여 임의의 node u의 feature를 얻기 위해서는 아래 같은 과정이 요구된다.
여기 서 주목 점 은 h_V 는 (위 그림 8 을 참고 할 때) 노드 U 와 V 사이 에 있는 의 의 의 라는 점 이다 이다. 즉, h_v는 위 그림5에서 얻은 характеристик다. 새로운 граничные функции 인 e_uv 만들기 위해 функция узла 인 h_u 와 граничная функция 인 h_v 를 конкатенация 하는 것이다. 위 식3을 통해 얻은 z_u는 임의의 узел u에 대해 внимание을 통해 구해진 Embedding이 된다.
3.3 Модуль улучшения структуры
위에서 소개된 2 가지 모듈은 모두 функции транзакции를 효과적으로 추출하기 위해 사용되었다. 이 ‹Улучшение структуры› 모듈에서는 всеобъемлющий 한 노드 표현력을 얻기 위해 особенности структуры узлов 를 추출한다. 방법은 매우 단순하다. 이것은 아래 [그림9]로 간략히 소개만 하고 스킵하겠다.
3.4 Экспериментальный результат
실험 결과는 아래 표3에서 TTAGN의 성능이 보여주는 바와 같이 타 방법론에 비해 매우 우수한 편이다. 아래에서 D1, D2, D3. 저자는 여러 데이터셋에 대해 실험을 진행할 때도 일관적으로 TTAGN 방법론의 분류 성능이 우 수하다는 점을 어필한다.
아래 그림10에서 진행한 Ablation Study은 각 모듈의 식별 성능 향상 기여도를 보여준다. 아래 표에서 TTAGN에 해당하는 것이 전술된 3가지 모듈을 모두 사용한 경우이고, TTAGN/e 같이 표기 된 것은 특정 모듈 (edge2node) 만을 제외한 모델을 가리킨다. 아래 결과를 미루어볼 때, Улучшение структуры 모듈을 제외한 나머지 2 가지 모듈의 효용성은 매우 높다. 특히, Recall 경우, Edge2node를 사용한 경우와 그렇지 않은 경우의 차이는 최대 0.2 정도 차이가 나는 것 을 볼 수 있다.
위 결과는 월렛들의 история транзакций 축한다고 볼 수 있다.
4. 나가며
가상자산, 블록체인 분야에서 머신러닝을 적용하는 연구는 점점 다양해지고 고도화되고 있 다. 위에서 살펴보았듯이, 신경망 기반의 가상자산에 대한 부정거래 탐지 연구 분야에서도, 현 재는 고전적인 머신러닝 알고리즘을 적용하고 단순한 신경망 모델을 적용하던 2017년 이전 보 다 더 다양하고 세련된 방식의 연구가 진행되고 있다 . 하지만 여전히 문제는 남아있다. 이 연구가 실용적이기 위해서는 더 신뢰할만한 데이터셋 구축 프로세스 안에서 라벨링된 데이터를 수집해야 할 것이다. Cryptoscam DB включает Etherscan [15]. 신뢰하기 어렵다는 난점이 있다. 또한, 개인적인 경험에 비추어 볼 때, 다수의 블록체인 전문 회사에서는 인공지능 기술을 블록체인 기술의 대척점에 있는 것으로 여겨 머신러닝 활용에 초점을 맞추는 경우가 드문 경 향이 있다. 설상가상으로, 블록체인 산업 내에 머신러닝 전문가는 매우 드물다. 대부분의 ML 전문가는 비전, 자연어, 오디오, 추천시스템, 게임 산업 등에 포진되어 있는 것 같다. 가상자산 및 블록체인 시장이 성장함에 따라 이 분야에서도 패턴인식 및 머신러닝 기술이 요구되는 여러 문제에 맞닥뜨리게 될 것이다. 향후 더 많은 머신러닝 관련자가 블록체인 산업에도 관심을 갖게 되기를 기대하며 글을 마 친다.
Copyright ©️ 2022 (Jaeyoung Cheong), все права защищены.
Рекомендации
[1] Юнг, Ынджин и др. «Обнаружение мошенничества с Ethereum на основе интеллектуального анализа данных». Международная конференция IEEE по блокчейну (Blockchain) 2019. ИИЭР, 2019.
[2] Ли, Сиджия и др. «TTAGN: временная сеть графа агрегации транзакций для обнаружения мошенничества с фишингом Ethereum». Материалы веб-конференции ACM 2022. 2022.
[3] Ху, Хуйвэнь, Цяньлань Бай и Юэдун Сюй. «Scsguard: Глубокое обнаружение мошенничества для смарт-контрактов Ethereum». Конференция IEEE INFOCOM 2022-IEEE по семинарам по компьютерным коммуникациям (INFOCOM WKSHPS). ИИЭР, 2022.
[4] Вебер, Марк и др. «Борьба с отмыванием денег в биткойнах: эксперименты со сверточными сетями графов для финансовой экспертизы». препринт arXiv arXiv:1908.02591 (2019 г.).
[5] 이한수, “체이널리시스 “스캠 피해, 전년보다 81% 증가한 9조 원””「메타미디어」, 2022.01.28
[6] 김가영, «빗썸, FDS강화·거래량 폭증에 고객센터 ‘과부하’» 「팍스넷뉴스」, 2021.04.09
[7] 원재연, “코인원 “예외 없이 원칙 준수가 핵심”” ,「팍스넷뉴스」,2022.08.17
[8] 박세아, “가상자산거래소, ‘이상금융거래탐지’로 사기 및 범죄 미리 잡아낸다” 「디지털데일리」, 2022.09.16.
[9] 금융보안원, «머신러닝 기반의 이상거래 탐지 시스템 동향, 2017.08
[10] https://cryptoscamdb.org/
[11] 김대훈, «신한은행, 금융권 최초 ‘AI 이상행동탐지 ATM’ 도입»「한경금융」, 2022.03.07
[12] Фарруджа, Стивен, Джошуа Эллул и Джордж Аззопарди. «Обнаружение незаконных учетных записей в блокчейне Ethereum». Экспертные системы с приложениями 150 (2020): 113318.
[13] Канезаши, Хироки и др. «Обнаружение мошенничества в Эфириуме с помощью гетерогенных графовых нейронных сетей». препринт arXiv arXiv:2203.12363 (2022).
[14] 현화영, “카카오페이 “송금 전 사기이력 확인하고, 잘못 보내면 바로 신고하고”” 「세계일보」, 2022.09.07
[16] http://wiki.hash.kr/index.php/%EB%9E%8C%EB%8B%A4256%E3%88%9C
[17] https://www.coindeskkorea.com/news/articleView.html?idxno=71103