Panama Papers – für Big Data eine Bewährungsprobe
2,6 Terabyte Daten, darunter Urkunden, Kontoauszüge, Bilder und mehr – die Journalisten, die sich mit den Panama Papers beschäftigen, kann man bewundern, aber auch bedauern.
Da liegen sie nun, die 4,8 Millionen E-Mails, drei Millionen Datenbankformate, 2,15 Millionen PDF-Dateien, 1,1 Millionen Bilder, 320.000 Textdokumente und 2242 sonstigen Dokumente. 400 Journalisten aus mehr als 100 Redaktionen weltweit sind dabei, sie – offenbar manuell – auszuwerten. Es eilt, denn auf die spektakuläre Ankündigung müssen jetzt handfeste Ergebnisse folgen. Wollen die Journalisten so professionell weitermachen, wie sie begonnen haben, sollten sie sich nun an IT-Spezialisten wenden. Jetzt sind Data Scientists gefragt, Profis, die verborgene Zusammenhänge aufspüren und den unstrukturierten Datenberg durchdringen.
Wie das gehen könnte, hat Christian Nietner, Data Scientist beim Berliner Startup The unbelievable Machine Company, kürzlich skizziert. Er empfiehlt, eine hochskalierbare und konfigurierbare Volltextsuchmaschine einzusetzen, die strukturierte und unstrukturierte Textdaten konsolidieren kann. Die Auswertung der Bilddaten könne mittels neuronaler Netze erfolgen, auch in Kombination mit Machine-LearningAlgorithmen für die Verarbeitung natürlicher Sprache.
Laut Nietner geht es jetzt darum, einen einzigen, effizient durchsuchbaren Datenpool für alle Dokumente zu schaffen. Data Science könne insbesondere helfen, bislang unbekannte und auch nicht offensichtliche semantische, temporale, geografische oder thematische Muster in Daten zu erkennen. Auch sei der Einsatz von Graph-Datenbanken und Algorithmen für die Netzwerkanalyse zu empfehlen. Es gibt sicher unterschiedliche Meinungen, wie die Herausforderung gemeistert werden kann. Sicher ist aber, dass diese Aufgabe, die Regierungen stürzen und internationale Krisen hervorrufen kann, mit höchster Professionalität angegangen werden muss.
Herzlich, Ihr Heinrich Vaske, Chefredakteur