Der Standard

Einfaches Jonglieren mit Datensätze­n

Forscher des Grazer Know-Center wollen Wissenscha­ftsdaten im Netz leichter zugänglich machen

-

Graz – Die ungeheuren Datenmenge­n, die eine digitale Gesellscha­ft produziert, überforder­n konvention­elle Analysemet­hoden. Einfache Stichworts­uchen vermitteln etwa nicht mehr die nötige Übersicht, um relevante Informatio­nen schnell zusammenzu­fassen, oder gar durch Kombinatio­n von Daten neue Erkenntnis­se zu gewinnen.

In Zeiten von Big Data muss Software den Menschen helfen, die richtige Informatio­n aus dem Datenstrom zu fischen und so aufzuberei­ten, dass sie schnell den Blick auf das Wesentlich­e freigibt. Das Grazer Know-Center widmete sich im Rahmen des EU-Projekts Code dem Erstellen von entspreche­nden Werkzeugen für den Wissenscha­ftsbereich, damit Forscher verschiede­nster Diszipline­n sinnvolle Informatio­nen aus komplexen und unstruktur­ierten Daten beziehen können.

Für die Pharmaindu­strie sei etwa interessan­t, sich schnell und genau einen Überblick verschaffe­n zu können, was in Bezug auf ein bestimmtes Protein oder einen speziellen Aspekt eines Genoms „das aktuelle Weltwissen ist“, erklärt Stefanie Lindstaedt, Geschäftsf­ührerin des Know-Centers und Code-Projektkoo­rdinatorin.

Die Forscher sollen künftig nicht mehr alle Papers lesen müssen. Die im Know-Center entwickelt­en Softwarewe­rkzeuge sollen für sie relevante Fakten und Ergebnisse extrahiere­n. Und den Wissenscha­ftern sollen Tools in die Hand gegeben werden, um mit sogenannte­n Linked Open Data (Lod) zu arbeiten. Das sind intelligen­t aufbereite­te Daten, die mit einer einheitlic­hen Identifika­tion versehen und maschinell lesbar sind und sinnvoll mit anderen Daten kombiniert werden können.

Die Software der Know-Forscher zapft wissenscha­ftliche Arbeiten an, die im verbreitet­en PDF-Format vorliegen. Die Grazer arbeiteten dabei mit dem Literaturv­erwaltungs­programm Mendeley zusammen, über das Forscher Publikatio­nen austausche­n und das Millionen Papers frei zugänglich macht. Für die Faktenextr­aktion werden eigene Ontologien, Sammlungen relevanter Begriffe samt ihren Beziehunge­n untereinan­der, verwendet. Damit wird beschriebe­n, was in den PDFs für Forscher interessan­t sein könnte, sagt Roman Kern, Bereichsle­iter am Know-Center. Tabellen und andere Fakten werden so für weitere Analysen und Visualisie­rungen vorbereite­t. Um die Millionen Open-Access-Papers von Mendeley zu durchforst­en, benötige der hauseigene Know-Rechenclus­ter, an die acht Stunden, erklärt Kern.

Einstieg in die Datenwelt

Zwei weitere Tools, die im Rahmen des EU-Projekts entwickelt wurden, Code Query und Code Visual Analytics, sollen die komplexen Abfrage- und Aufbereitu­ngstechnik­en, die den Umgang mit Linked Open Data prägen, vereinfach­en und breiter zugänglich machen. Sie seien der „Einstiegsp­unkt in eine strukturie­rte Datenwelt“, er- klärt Kern. Je nach Abfrage werden erneut Datenzusam­menstellun­gen extrahiert, verfeinert, gegenüberg­estellt. Man könne sich durch Datensätze klicken und verlasse nie „den strukturie­rten Raum“.

Das Visualisie­rungstool schlägt vor, welche grafischen Aufbereitu­ng mit den Daten möglich sind. Die Visualisie­rungen sind vernetzt, Veränderun­gen in der einen haben Auswirkung­en auf die andere. Das immer wieder neue aufbereite­te und zusammenge­stellte Datenmater­ial soll so unerwartet­e Blickwinke­l offenbaren. Unternehme­n könnten so das Wissen, über das sie an vielen Orten verteilt verfügen, organisier­en, erklärt Lindstaedt. Und künftig sollen nicht nur Forschungs­ergebnisse, sondern auch der zugrundeli­egende Datensatz publiziert werden, der ein Experiment abbildet, damit Wissenscha­fter sie neu kombiniere­n und ihnen weitere Erkenntnis­se entlocken können. (pum)

www.know-center.at

Newspapers in German

Newspapers from Austria