Einfaches Jonglieren mit Datensätzen
Forscher des Grazer Know-Center wollen Wissenschaftsdaten im Netz leichter zugänglich machen
Graz – Die ungeheuren Datenmengen, die eine digitale Gesellschaft produziert, überfordern konventionelle Analysemethoden. Einfache Stichwortsuchen vermitteln etwa nicht mehr die nötige Übersicht, um relevante Informationen schnell zusammenzufassen, oder gar durch Kombination von Daten neue Erkenntnisse zu gewinnen.
In Zeiten von Big Data muss Software den Menschen helfen, die richtige Information aus dem Datenstrom zu fischen und so aufzubereiten, dass sie schnell den Blick auf das Wesentliche freigibt. Das Grazer Know-Center widmete sich im Rahmen des EU-Projekts Code dem Erstellen von entsprechenden Werkzeugen für den Wissenschaftsbereich, damit Forscher verschiedenster Disziplinen sinnvolle Informationen aus komplexen und unstrukturierten Daten beziehen können.
Für die Pharmaindustrie sei etwa interessant, sich schnell und genau einen Überblick verschaffen zu können, was in Bezug auf ein bestimmtes Protein oder einen speziellen Aspekt eines Genoms „das aktuelle Weltwissen ist“, erklärt Stefanie Lindstaedt, Geschäftsführerin des Know-Centers und Code-Projektkoordinatorin.
Die Forscher sollen künftig nicht mehr alle Papers lesen müssen. Die im Know-Center entwickelten Softwarewerkzeuge sollen für sie relevante Fakten und Ergebnisse extrahieren. Und den Wissenschaftern sollen Tools in die Hand gegeben werden, um mit sogenannten Linked Open Data (Lod) zu arbeiten. Das sind intelligent aufbereitete Daten, die mit einer einheitlichen Identifikation versehen und maschinell lesbar sind und sinnvoll mit anderen Daten kombiniert werden können.
Die Software der Know-Forscher zapft wissenschaftliche Arbeiten an, die im verbreiteten PDF-Format vorliegen. Die Grazer arbeiteten dabei mit dem Literaturverwaltungsprogramm Mendeley zusammen, über das Forscher Publikationen austauschen und das Millionen Papers frei zugänglich macht. Für die Faktenextraktion werden eigene Ontologien, Sammlungen relevanter Begriffe samt ihren Beziehungen untereinander, verwendet. Damit wird beschrieben, was in den PDFs für Forscher interessant sein könnte, sagt Roman Kern, Bereichsleiter am Know-Center. Tabellen und andere Fakten werden so für weitere Analysen und Visualisierungen vorbereitet. Um die Millionen Open-Access-Papers von Mendeley zu durchforsten, benötige der hauseigene Know-Rechencluster, an die acht Stunden, erklärt Kern.
Einstieg in die Datenwelt
Zwei weitere Tools, die im Rahmen des EU-Projekts entwickelt wurden, Code Query und Code Visual Analytics, sollen die komplexen Abfrage- und Aufbereitungstechniken, die den Umgang mit Linked Open Data prägen, vereinfachen und breiter zugänglich machen. Sie seien der „Einstiegspunkt in eine strukturierte Datenwelt“, er- klärt Kern. Je nach Abfrage werden erneut Datenzusammenstellungen extrahiert, verfeinert, gegenübergestellt. Man könne sich durch Datensätze klicken und verlasse nie „den strukturierten Raum“.
Das Visualisierungstool schlägt vor, welche grafischen Aufbereitung mit den Daten möglich sind. Die Visualisierungen sind vernetzt, Veränderungen in der einen haben Auswirkungen auf die andere. Das immer wieder neue aufbereitete und zusammengestellte Datenmaterial soll so unerwartete Blickwinkel offenbaren. Unternehmen könnten so das Wissen, über das sie an vielen Orten verteilt verfügen, organisieren, erklärt Lindstaedt. Und künftig sollen nicht nur Forschungsergebnisse, sondern auch der zugrundeliegende Datensatz publiziert werden, der ein Experiment abbildet, damit Wissenschafter sie neu kombinieren und ihnen weitere Erkenntnisse entlocken können. (pum)
www.know-center.at