Blockchains via Machine Learning-Software untersuchen, um Geldwäsche zu erkennen

Das Blockchain-Analyse-Unternehmen Elliptic hat durch eine Partnerschaft mit Forschern des Massachusetts Institute of Technology (MIT) eine Machine Learning-Software auf die Bitcoin-Blockchain angewandt, um Muster in den Transaktionen und somit potenziell illegale Aktivitäten wie Geldwäsche und Zahlungen für Ransomware über Bitcoin-Transaktionen erkennen zu können.

Elliptic veröffentlichte einen Datensatz aus rund 200.000 Transaktionen sowie ein Paper, in dem mehrere Methoden erklärt werden, wie man diese Daten auswerten und Muster erkennen kann (hier nachzulesen). Die Einleitung des Papers beschäftigt sich mit dem Problem, dass die AML- (Anti-Money-Laundering, zu Deutsch „Anti-Geldwäsche“) und KYC-Bestimmungen (Know-Your-Customer, zu Deutsch „Kundenverifizierung“) immer strenger werden. Dies sei zwar für die Sicherheit unseres Finanzsystems essenziell, würde aber gerade ärmere Menschen und Menschen in der dritten Welt treffen.

Das Problem liegt im Aufwand

Da durch die AML- und KYC-Auflagen ein höherer Aufwand und höhere Kosten für Zahlungsinstitute entstehen und sie im Falle von Nicht-Konformität mit hohen Strafen zu rechnen haben, lohnt es sich derzeit für viele Zahlungsinstitute nicht, in bestimmten Regionen für Privatkunden aktiv zu sein. Das stellt einen Grund dar, weshalb bis heute rund 1,7 Milliarden Erwachsene weltweit kein Bankkonto haben. Natürlich gibt es diese strengen Auflagen nicht ohne Grund, und genau damit beschäftigt sich der nächste Punkt des Papers. Noch immer gibt es kriminelle Milliarden-Industrien wie Drogenkartelle, Menschenhandel und Terrororganisationen, die Geldwäsche betreiben, wodurch es natürlich zu kurz gedacht wäre, die strengen AML- und KYC-Regeln als übertrieben abzutun. Nun stellt sich die Frage: Wie haben Elliptic und Co. es überhaupt geschafft, die Bitcoin-Transaktionen hinsichtlich Geldwäscheaktivitäten zu analysieren?

Die Analyse der Transaktionen

Im Prinzip bildet der generierte Datensatz eine Verbindung zwischen Bitcoin-Transaktionen und echten Entitäten, die legal (Börsen, Miner, Wallets) oder illegal (Betrüger, Ransomware, Terrororganisationen etc.) sein können.

Aus den Rohdaten wird vereinfacht gesagt ein Graph gebildet, bei dem die Bitcoin-Transaktionen die Knoten bilden und der Fluss von Bitcoins von einer Transaktion zur nächsten die „Kanten“ (Edges). Diese Kanten bilden die Verbindungslinie zwischen den einzelnen Knoten. Der entstandene Graph wird mit zusätzlich Daten („Features“) angereichert. Diese Daten können z. B. die Anzahl an Inputs und Outputs einer Transaktion sein, aber auch Informationen wie Korrelationen zu Nachbartransaktionen.

Kann eine Transaktion z. B. keiner eindeutigen Entität zugeordnet werden, so werden weitere Faktoren herangezogen: Unter anderem ist eine höhere Anzahl an Inputs und das Wiederverwenden von Adressen mit einem höheren Clustering von Adressen verbunden, wodurch die Anonymität einer Transaktion in der Regel stark sinkt. Gleichzeitig bietet diese Art von Transaktionen durch das Zusammenführen von Inputs niedrigere Transaktionsgebühren. Daraus folgt, dass jene Entitäten, die diese Transaktionen versenden, mit einer höheren Wahrscheinlichkeit legal sind. Währenddessen wird bei illegalen Entitäten vermutlich nicht diese Transaktionsart gewählt. Wobei natürlich gesagt sei, dass dies nur einer von vielen Faktoren ist und dieser Faktor für sich nur sehr wenig Aussagekraft hat und lediglich als Beispiel dienen soll.

Außerdem gibt es natürlich weitere Herausforderungen beim Konstruieren von Features für Transaktionen. Eine davon liegt in der Größe der gesamten Bitcoin-Blockchain von mittlerweile über 200 GB. Auch wenn in der Studie nur ca. ein halber Tag an Transaktionen verwendet wurde, so ist es für die Untersuchung der kompletten Historie dieser Transaktionen notwendig, Zugriff auf die gesamte Bitcoin-Blockchain zu haben. Dafür nutzt Elliptic einen speziellen Arbeitsspeicher.

Elliptic beschreibt es als Herausforderung von AML-Analysen, aus einer Vielzahl von Daten eine möglichst kleine Zahl als möglicherweise illegale Transaktionen zu klassifizieren. Im Bankenwesen beträgt diese „false positive“-Rate über 90 %, das heißt, dass über 90 % der als potenziell illegalen Transaktionen sich als legal erweisen.

Natürlich möchte auch Elliptic die Anzahl an „false positives“ möglichst klein halten, ohne gleichzeitig die „false negatives“ zu erhöhen, also weniger unschuldige Transaktionen als Treffer einzustufen, ohne gleichzeitig mehr illegale Transaktionen nicht zu treffen.

Machine-Learning als Lösungsansatz

Die Forscher testeten nun mehrere Methoden, um herauszufinden, welche am besten geeignet ist, um risikobehaftete Transaktionen zu erkennen. Im untersuchten Datenset wurden 2 % als illegal und 21 % als legal eingestuft. Die nächste Aufgabe für die Forscher ist es nun, die weiteren Transaktionen ebenfalls einzuschätzen.

Mithilfe von Machine-Learning können Computerprogramme die bereits kategorisierten Transaktionen und deren Features untersuchen, um zu erfahren, welche Eigenschaften dafür sprechen, dass eine Transaktion legal oder illegal ist. Das dadurch Gelernte kann der Algorithmus anschließend auf die weiteren, noch nicht kategorisierten Transaktionen anwenden. Hier gibt es mehrere Algorithmen, wie Random Forest, logistische Regression und Multilayer Perceptron. MLP basiert auf neuronalen Netzwerken, die Wahrscheinlichkeitsschätzungen liefern, Random Forest auf sogenannten Entscheidungsbäumen, mit denen Wahrscheinlichkeiten berechnet werden.

Die logistische Regression ist ein Klassifizierungsalgorithmus, mit dem Beobachtungen einer bestimmten Gruppe von Klassen zugeordnet werden. Insgesamt hat das Forscherteam 14 Methoden ausprobiert, um zu erkennen, welche davon legale bzw. illegale Transaktionen am präzisesten vorhersagen. Random Forest schneidet hier vor MLP eindeutig am besten ab und bringt es mit den gesamten Features sogar auf eine Präzision von über 0.95.

Ein weiterer interessanter Fakt, den die Forscher erkannten: Innerhalb des untersuchten Datensatzes (ca. ½ Tag an Transaktionen) fand der Shutdown eines Darknet-Marktes statt. Dieser brachte die Algorithmen in Schwierigkeiten, da die Transaktionen nach dem Shutdown wesentlich unpräziser eingestuft werden konnten: Die Algorithmen hatten versucht, die Parameter des Darknet-Markt-Shutdowns auf die Transaktionen danach zu übertragen, die damit nichts mehr zu tun hatten.

Fazit

Zusammenfassend lässt sich sagen, dass aufgrund der Ergebnisse illegale Bitcoin-Transaktionen deutlich leichter und eindeutiger zu identifizieren sind als im herkömmlichen Bankenwesen, die Methode jedoch natürlich weiter verbessert werden muss. Es ist vor allem anzumerken, dass lediglich ein kleiner Bruchteil aller Transaktionen der ständig weiter wachsenden Blockchain untersucht wurde. Bei steigender Komplexität (für Zusammenhänge zwischen Transaktionen müssen alle bisherigen Blöcke durchsucht werden) stehen auch diese Methoden vor einer Herausforderung. Nichtsdestotrotz wurde mit der Arbeit von Elliptic, dem MIT und IBM durch das Veröffentlichen des bislang relevantesten Datensatzes von markierten Bitcoin-Transaktionen ein wichtiger Grundstein gelegt, durch den die Forscher hoffen, die Algorithmen weiter verbessern zu können.

Quellen:

[1] Elliptic, www.elliptic.co.

[2] M. Weber, G. Domeniconi, J. Chen, D. K. I. Weidele, C. Bellei, T. Robinson, C. E. Leiserson, „Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional Networks for Financial Forensics“, KDD ’19 Workshop on Anomaly Detection in Finance, August 2019, Anchorage, AK, USA.