Neue Algorithmen bewältigen Datenflut viel schneller
Jungwissenschafter der Universität Salzburg können mit jüngsten Forschungsergebnissen auch international aufzeigen.
Den beiden Jungwissenschaftern Thomas Hütter und Daniel Kocher vom Fachbereich Computerwissenschaften an der Uni Salzburg ist ein Durchbruch in der Datenbankforschung gelungen. Die beiden Doktoranden der Forschungsgruppe „Database Research Group“von Professor Nikolaus Augsten befassten sich mit dem Auffinden und Verknüpfen von hierarchisch organisierten Daten, wie sie in diversen Anwendungen vorkommen. Sie entwickelten Algorithmen für zwei unterschiedliche Probleme, die in manchen Fällen bis zu 1000 Mal schneller sind als bisher existierende Lösungsansätze.
Die Datenbankforschung beschäftigt sich mit der technischen Bewältigung der Datenflut, die in vielen Lebensbereichen generiert und verwaltet werden muss. So geht beispielsweise einer Online-Buchbestellung
das Durchsuchen einer umfangreichen Buchdatenbank voraus. Relevante Informationen, wie Autor, Titel, Genre, Datum der Veröffentlichung, Bewertungen und vieles mehr, werden dabei in einer Datenbank aufbewahrt.
Wenn nun jemand diese Datenbank durchsuchen will, ergeben sich zwei Szenarios, bei denen die Algorithmen der Jungforscher eingesetzt werden. Im ersten Szenario müssen alle Paare von Büchern gefunden werden, die eine gewisse Ähnlichkeit haben, beispielsweise um Duplikate zu identifizieren. Um jedoch alle Paare in einer Datenbank zu evaluieren, werden normalerweise mehrere Tage benötigt. Thomas Hütter hat dafür eine effizientere Lösung gefunden, die nur Paare in Betracht zieht, die viele Gemeinsamkeiten aufweisen. Somit werden im besten Fall nur noch einige Sekunden benötigt. Hütters Algorithmus wurde auf der „IEEE International Conference on Data Engineering“, einer der Toptagungen der Datenbankforschung, veröffentlicht und kürzlich in Macau (China) präsentiert. Außerdem erhielt Hütter für seine herausragende Arbeit den Young Investigator Award 2019 der Universität Salzburg. Kobetreuer der Arbeit von Thomas Hütter ist Mateusz Pawlik vom Fachbereich Computerwissenschaften. Im zweiten Szenario steht nur eine Auswahl an Datenattributen zur Verfügung, beispielsweise der Vorname des Autors, das Genre und die Bewertung. Es sollen nun jene fünf Bücher gefunden werden, die zu diesen Attributen am besten passen. Hierzu hat Daniel Kocher einen Algorithmus entwickelt, der in vielen Fällen nicht alle Bücher durchsucht, sondern nur fünf betrachten muss, um das gewünschte Ergebnis zu liefern.
Dadurch ist Kochers Lösung optimal. Seine Arbeit wurde auf der prestigeträchtigen Datenbankkonferenz „ACM International Conference on Management of Data“veröffentlicht und vor Kurzem in Amsterdam (Niederlande) präsentiert.
Die Forschung im Bereich der Ähnlichkeitssuche der „Database Research Group“wird teilweise durch den FWF (Fonds zur Förderung der wissenschaftlichen Forschung) finanziert.