Обнаружение мошенничества в блокчейне на основе машинного обучения

1. 들어가며

최근 세간의 블록체인에 대한 관심이 높아짐에 따라 머신러닝 분야에서도 이에 대한 연구 가 활발히 진행되고 있다. Система обнаружения мошенничества (Fraud Detection System, FDS), 가상자산 가 격 예측, 거래소 주소 식별, NFT 공정가 예측 등이 있는데 이들 중 가장 많은 연구가 이루어진 분 야는 FDS일 이다. 실제로, 악의적인 의도를 가진 많은 스캐머는 블록체인의 익명성을 악용하여 비트코인, 이 더리움을 통해 폰지 사기, 스캠 사기, 자금 세탁 등을 자행하고 있다. 미국의 블록체인 데이터분석 업체인 Chainalysis에 따르면 [5], 2021년도에 가상자산을 통한 스캠 범죄 피해액은 약 80억 달러에 달한다고 한다. 이는 전년도인 2020년에 비해 약 80% 증가한 수치이다. 다수의 가상자산 거래소에서는 이 같은 범죄를 예방하기 위해 부정거래 탐지 솔루션을 연 구 개발하여 발전시키고 있다 [6], [7]. 알려진 바에 따르면, 국내의 한 암호화폐 거래소에서는 머신러닝 기반으로 가상자산에 대 한 이상금융거래 탐지 솔루션을 서비스에 도입했다고 한다 [8]. 나아가, 거래소 뿐만 아니라, 블록체인 전문 기업 [17], [18] 에서도 머신러닝 기반의 암호화폐 에 대한 부정거래 탐지 연구를 진행하고 있고, 이들 중 웁살라시큐리티는 현재 개발된 솔루 을 상용화한 사실을 공개 한 바 있다.

하지만 사실 국내 타 금융권에서는 이미 몇년 전부터 머신러닝 기반 이상거래 탐지 연구를 진행해왔다. 2013년에 금융위원회가 ‘금융 전산 보안강화 대책’을 통해 금융권에 FDS 구축을 권고함에 따라, 주요 은행사에서 이상금융거래 탐지 시스템을 개발해왔다. 2018 г. 다 [9]. 이들 중 신한은행 [11], 카카오페이 [14] 등에서는 이미 머신러닝 기반으로 FDS를 연구 및 개발하 고 있는 것으로 보도 바 있다.

머신러닝 기반 FDS는 룰 기반의 그것보다 다음 같은 이점을 가질 것으로 기대된다는 점에서 발전 가능성이 크다고 보여진다.

ML 접근은 부정거래 탐지 전문가 집단의 지식에 의존하지 않고 기계가 데이터를 경험적으로 학습하기 때문에 FDS 개발에 요구되는 비용, 시간적인 자원을 절약할 수 있다.
룰 기반 시스템은 인간이 입력한 조건에 의해 작동하기 때문에 새로 입력되는 정상/사기 패 턴에 대한 식별 조건 업데이트가 자동으로 이루어지지 않는다. ML 기반 시스템은 새로 입력되는 데이터를 경험적으로 학습하여 분류하기 때문에 Concept Drift 을 용이하게 대응할 수 있다.
ML 기반 시스템은 인간이 감지하지 못하는 미묘한 사기 패턴까지도 학습하여 식별하기를 기대할 수 있다.

물론, ML 기반 시스템을 도입할 때 마주할 수 있는 곤경도 있다. 가장 도전적인 어려움은 전문가 시스템과 달리, ML 시스템은 정상/사기 여부가 라벨링된 데 이터가 요구된다는 점일 것이다. 사실 이것은 거의 모든 분야에서 ML 시스템을 구축할 때 마주하는 어려움이다. 하지만 블록체인 분야는 비교적 쉽게 데이터를 얻을 수 있다. 블록체인의 투명성을 이용해 원하는 모든 트랜잭션 데이터에 접근할 수 있으며, CryptoscamDB [10] 같은 곳에서는 사기 거래에 대한 라벨링 데이터도 제공하고 있기 때문이다. 더욱이, 최근들어 머신러닝 연구 영역에서는 준지도학습(Semi-supervised Learning) 연구가 활발히 진행됨에 따라 소량의 라벨 데이터셋만을 가지고서도 보다 좋은 일반화 성능을 가진 모델 개발을 기대 할 수 있게 되었다.

아래에서 나는 가상자산에 대한 FDS에 대해 공부하면서 읽었던 흥미로운 5가지 연구를 소개한 다. 이 5이터를 이용하여 모델의 사기 탐지 성 능 향상을 위해 더 정보적인 임베딩을 얻을 수 있는 지에 대한 방법을 제안한 연구들이다. Связанные темы 는 그래프 신경망을 응용한 연구를 소개한다.

2. 기존 연구

2.1 Байт-код 활용

[12] 랜잭션 원천 데이터으로부터 얻은 통계적 특징에 이미 잘 알려진 머신러닝 및 신경망 알고리 즘을 적용하는 정도에 지나지 않았다. 이용하는 독창적이고 세련된 아이디어도 제안되고 있다. [1]. 통계량과 트랜잭션의 통계량을 함께 학습시킨다.

또한, [1] 에서는 Gini 이용하여 임의의 지갑 주소의 송수신액의 불평등성을 피처로 계산 한다. 저자는 폰지 사기의 경우 초기 투자자는 투자한 뒤 더 큰 보상을 받을 것이지만, 나중 투자 자는 투자한 뒤 어떤 보상도 회수를 하지 못하는 양상을 보이는데, 이것을 포착하기 위해 지 니 계수를 사용하는 것은 유용할 것이라고 생각 한다.

여기서 a는 분포이고, n은 a 내 участника 개수이다. 위 식에 대한 이해를 돕고자 예를 들자면 아래와 같다.

위 [그림2]에서 볼 수 있듯이, 두번째 그림인 왼쪽의 участник의 스코어가 더 큰 경우 (트랜잭션 사례 Участник 경우 ( 트랜잭션 사례에서는 마지막 거래에 이더를 가장 많이 보내거나 받은 경우)의 지니계수 결 과는 정반대이고, 첫번째 그림과 나머지 그림의 지니계수 절댓값 차이는 비교적 크다. 이는 지니계수의 절댓값은 폰지 사기 패턴에 유사한지 여부를 결정할 때 정보적일 수 있음 을 함축하는 것으로 보인다.

[3]. ]과는 달리, 이 바이트코드를 n-gram으로 분절하여 모델에 학습시킨다. 예를 들어, 0xeaa18152488ce5959073c9c79c89 «ea», «a1», «81», … 이 될 것이다. 이 연구 는 n-грамм 의 n 이 얼마 인지 에 따라서 모델 에 도 유의미 한 변화가 있음 을 보였다. 이 논문의 실험 결과에 따르면, 2-грамм, 3-грамм (Ponzi) 사기 패턴 식별 능력을 얻었다.

2.2 Граф нейронной сети 응용

최근 신경망 기반의 가상자산에 대한 사기 탐지 연구 트렌드는 그래프 신경망을 적용한 방 법론인 것 같다. [4]. 거래 탐지 방법을 제안하기 시작했다. [4].

위 [식1]에 대해 간략히 설명하자면, 여기서 H는 матрица встраивания이고, A는 Матрица смежности, W는 Обучаемый вес를 가리킨다. 시그마는 Функция активации 이다. 이 [식1]은 현재 레이어 (l)에서, AHW를 곱한 뒤 функция активации 을 통과하면 다음 레이어 (l+1)에서의 임베딩 행 렬을 구할 수 있음을 뜻한다.

해당 논문[4]에서 진행한 실험 결과에 따르면, 부정 거래인지 정상 거래인지 여부를 식별하 Логистическая регрессия 델 을 사용할 때 보다 더 좋은 성능을 보인다. 하지만 Random Forest, MLP 모델의 성능이 GCN, Skip-GCN 보다 좋은 경우가 있는데, 저자는 이 결과에 대해 모델 학 Особенности ввода-вывода

[13] 은 Heterogeneous Graph Neural Network. 앞에서 보았던 [4]의 아이디어는 Однородный GNN에 대한 연구였다. 이것은 ‹사기 유형을 가진 nodes› 만을 고려한다 점에서 однородный 하다고 여겨진다. 반면에, [13]에서는 ‹사기 유형을 가진 nodes› 뿐만 아니라 ‹가상자산 거래소 소유 지갑(exchange) 유형 을 가진 nodes› 또한 이용한다는 점에서 гетерогенный 하다고 여겨진다. 이 같이 гетерогенный GNN을 이용하면 모델 학습 시에 однородный GNN 보다 더 информативные признаки를 얻을 수 있다. [13]. 것은 아니지만, 부정 거래라고 의심되는 트랜잭션 및 주소를 탐지하는 데 힌트가 될 것이라 고 가정한다. 그들은 본고에서 мошенничество 탐지 모델을 만들기 위해 이 이질적인 exchange 유형 주소와 мошенничество 유형 주소 간의 «edge-type» 를 구성하는데 사용한다.

저자는 위에서 구성한 edge-type을 동원하여 기존에 제안된 Heterogeneous GNN 모델에 트랜잭션의 통계적 특징과 함께 학습시킨다. 저자가 사용한 피처는 Однородный GNN을 예로 들 때 아래 [그림5]와 같다. 기존 연구들과 유사하게 본 연구에서도 모델 학습을 위해 트랜잭션의 통계적 특징을 이용 인코딩 방식으로 라벨링했다는 점에서는 종래의 연 구와 차이가 있다.

[13] 의 Гомогенный vs Гетерогенный GNN 을 비교한 실험 결과는 아래와 같다.

3. TTAGN (сеть временного агрегирования транзакций)

TTAGN [2]이다. 그 이유는 지갑 주소의 트랜잭션에 대한 Информация о времени 을 모델에 학습시키기 때문일 것이다. 예컨대, 주소가 보낸 이 더 양의 총합, 보낸 이더의 최대값 등)만을 이용했다면, [2]에서는 타깃 주소의 트랜잭션이 시 이 지남에 따라 어떻게 변하는지에 대한 정보를 학습했다는 점에서 특별하다. (실제 논문에서 거래 시간도 особенности 로 사용한다.)

Контекстный контекстный контекст 적, 구조적 특징만을 사용한다면 слабое представление узла 문제가 야기될 수 있다. 즉, 이것은 레코드의 контекстуальный 정보를 활용할 때 만큼 풍부한 представление을 얻지 못함을 함축한다.

이러한 기존 연구의 한계를 극복하기 위해 TTAGN에서는 3 가지 구성 요소로 이루어진 아키텍처 를 소개한다.

Представление временного края: 이더리움 플랫폼 상의 지갑 주소 간 거래 기록에서 временная информация 을 추출한다.
Модуль Edge2node (чтобы получить торговые функции): 지갑 주소(node) 사이에 있는 реберное представление 은 네트워크의 топологическое взаимодействие 정보를 더 뒍부하게 하기 위해 агрегация 된다.
Модуль улучшения структуры: 네트워크의 정보 학습

3.1 Представление границы времени

Мотивация

트랜잭션 정보에는 направление транзакции, сумма, отметка времени 저자는 이 점을 고려하여 거래 레코드의 시간적(временной) 또는 맥락적 (контекстный) 의 Представительство이 향상될 것이라고 말한다.

Предлагаемая идея

그렇다면, временная транзакция 저자는 Transaction이라는 Sequential한 데이터를 처리하기 위해 대중적인 RNN 계열 모델인 LSTM을 사용한다.

위에서 최종적으로 계산된 e(uv)_tilde는 реберное вложение이고, (u,v)는 노드pair를 가리킨다. Вложения 이다. 또한 이 n개의 embedding을 만들기 위해 a(uv)i, t(uv)i 가 input으로 들어가는데 이들은 각각 amount와 timestamp 이다. 저자는 송수신 경우를 구분하기 위해 отправка 경우 сумма를 +로, получение인 경우는 -로 표기한다.

3.2 Модуль Edge2node

Мотивация

이전 연구들에서 사용되어 온 노드 (이더리움 지갑 주소)에 대한 разработано вручную 횟수)은 모델에 представление слабых узлов 만을 제공할 뿐이었다. 하지만 각 지갑 주소는 동시에 여러 다른 주소들과 взаимодействие을 하는데, TTAGN에서는 이 взаимодействие을 представление으로 가공한 다. 이렇게 만들어진 представление 은 각 представление узла에 다른 정보를 제공하는데, 이 정보는 각 월렛 주소의 мошенничество 스코어에 영향을 주기 때문에 모델의 식별 성능 향상에 이점을 제공한다.

Предлагаемая идея

TTAGN은 여러 월렛(узлы)을 둘러싼 트랜잭션(ребра) 금 학습할 수 있게 해준다. 더욱이, Edge2node 모듈에서는 유사한 트랜잭션 행태를 포착하기 위해 Attention 기법을 적용함으로써 торговые функции를 생성하게 해준다. 이 edge2node включает в себя края и веса, а также выразительные представления узлов.

Edge2node 에서 Attention을 적용하여 임의의 node u의 feature를 얻기 위해서는 아래 같은 과정이 요구된다.

여기 서 주목 점 은 h_V 는 (위 그림 8 을 참고 할 때) 노드 U 와 V 사이 에 있는 의 의 의 라는 점 이다 이다. 즉, h_v는 위 그림5에서 얻은 характеристик다. 새로운 граничные функции 인 e_uv 만들기 위해 функция узла 인 h_u 와 граничная функция 인 h_v 를 конкатенация 하는 것이다. 위 식3을 통해 얻은 z_u는 임의의 узел u에 대해 внимание을 통해 구해진 Embedding이 된다.

3.3 Модуль улучшения структуры

위에서 소개된 2 가지 모듈은 모두 функции транзакции를 효과적으로 추출하기 위해 사용되었다. 이 ‹Улучшение структуры› 모듈에서는 всеобъемлющий 한 노드 표현력을 얻기 위해 особенности структуры узлов 를 추출한다. 방법은 매우 단순하다. 이것은 아래 [그림9]로 간략히 소개만 하고 스킵하겠다.

3.4 Экспериментальный результат

실험 결과는 아래 표3에서 TTAGN의 성능이 보여주는 바와 같이 타 방법론에 비해 매우 우수한 편이다. 아래에서 D1, D2, D3. 저자는 여러 데이터셋에 대해 실험을 진행할 때도 일관적으로 TTAGN 방법론의 분류 성능이 우 수하다는 점을 어필한다.

아래 그림10에서 진행한 Ablation Study은 각 모듈의 식별 성능 향상 기여도를 보여준다. 아래 표에서 TTAGN에 해당하는 것이 전술된 3가지 모듈을 모두 사용한 경우이고, TTAGN/e 같이 표기 된 것은 특정 모듈 (edge2node) 만을 제외한 모델을 가리킨다. 아래 결과를 미루어볼 때, Улучшение структуры 모듈을 제외한 나머지 2 가지 모듈의 효용성은 매우 높다. 특히, Recall 경우, Edge2node를 사용한 경우와 그렇지 않은 경우의 차이는 최대 0.2 정도 차이가 나는 것 을 볼 수 있다.

위 결과는 월렛들의 история транзакций 축한다고 볼 수 있다.

4. 나가며

가상자산, 블록체인 분야에서 머신러닝을 적용하는 연구는 점점 다양해지고 고도화되고 있 다. 위에서 살펴보았듯이, 신경망 기반의 가상자산에 대한 부정거래 탐지 연구 분야에서도, 현 재는 고전적인 머신러닝 알고리즘을 적용하고 단순한 신경망 모델을 적용하던 2017년 이전 보 다 더 다양하고 세련된 방식의 연구가 진행되고 있다 . 하지만 여전히 문제는 남아있다. 이 연구가 실용적이기 위해서는 더 신뢰할만한 데이터셋 구축 프로세스 안에서 라벨링된 데이터를 수집해야 할 것이다. Cryptoscam DB включает Etherscan [15]. 신뢰하기 어렵다는 난점이 있다. 또한, 개인적인 경험에 비추어 볼 때, 다수의 블록체인 전문 회사에서는 인공지능 기술을 블록체인 기술의 대척점에 있는 것으로 여겨 머신러닝 활용에 초점을 맞추는 경우가 드문 경 향이 있다. 설상가상으로, 블록체인 산업 내에 머신러닝 전문가는 매우 드물다. 대부분의 ML 전문가는 비전, 자연어, 오디오, 추천시스템, 게임 산업 등에 포진되어 있는 것 같다. 가상자산 및 블록체인 시장이 성장함에 따라 이 분야에서도 패턴인식 및 머신러닝 기술이 요구되는 여러 문제에 맞닥뜨리게 될 것이다. 향후 더 많은 머신러닝 관련자가 블록체인 산업에도 관심을 갖게 되기를 기대하며 글을 마 친다.