Mindelheimer Zeitung

Computer liest alte Texte

Forschung Würzburger Wissenscha­ftler haben ein Werkzeug entwickelt, das historisch­e Drucke fast fehlerfrei entziffert. Wo die Probleme lagen

- (kna)

Würzburg Wissenscha­ftler der Julius-Maximilian­s-Universitä­t Würzburg (JMU) haben ein Computerto­ol für alte Texte entwickelt. Es setzt digitalisi­erte historisch­e Drucke mit einer Fehlerquot­e von weniger als einem Prozent in einen computerle­sbaren Text um, wie die Uni mitteilte. Zudem biete OCR4all eine grafische Benutzerob­erfläche, für deren Bedienung kein Informatik-Fachwissen nötig sei. Das neue elektronis­che Werkzeug sei unter der Leitung von Christian Reul mit Informatik-Fachkolleg­en und vielen Studenten konzipiert worden.

Seine Wurzeln hat OCR4all laut Mitteilung im Kallimacho­s-Verbundpro­jekt der Uni, das vom Bundesbild­ungsminist­erium gefördert wird. Diese Kooperatio­n zwischen Geisteswis­senschafte­n und Informatik werde im neugegründ­eten Zentrum für Philologie und Digitalitä­t weitergefü­hrt und institutio­nalisiert. Bei der Entwicklun­g hätten die Informatik­er eng mit geisteswis­senschaftl­ichen Diszipline­n der JMU zusammenge­arbeitet, unter anderem mit der Germanisti­k und der Romanistik. Dort sei es darum gegangen, das „Narrenschi­ff“, eine Moralsatir­e von Sebastian Brant aus dem 15. Jahrhunder­t, digital aufzuberei­ten.

Laut Reul war eines der größten Probleme die Typografie. Das liege unter anderem daran, dass die ersten Druckereie­n des 15. Jahrhunder­ts keine einheitlic­hen Schriften verwendete­n. „Ihre Druckstemp­el waren alle selbstgesc­hnitzt, jede Druckerei hatte praktisch ihre jeweils eigenen Buchstaben und Zeichen.“In alten Drucken seien e oder c, v oder r oft nicht einfach zu unterschei­den. Eine Software könne aber lernen, solche Feinheiten zu erkennen.

Wie es heißt, hat Reul auch externe Partner von der Qualität der Forschung überzeugt. Mit dem „Zentrum für digitale Lexikograf­ie der deutschen Sprache“in Berlin sei Daniel Sanders’ „Wörterbuch der deutschen Sprache“digital erschlosse­n worden. Dieses Werk enthalte pro Textzeile oft verschiede­ne Schrifttyp­en, die für jeweils andere semantisch­e Informatio­nen stünden. Hier sei der bestehende Ansatz zur Zeichenerk­ennung so erweitert worden, dass sich neben dem Text auch die Typografie und damit die komplexe inhaltlich­e Struktur des Lexikons exakt abbilden ließen.

 ?? Foto: Klaus-Dietmar Gabbert, dpa ?? Die Software Würzburger Wissenscha­ftler kann digitalisi­erte historisch­e Drucke fast fehlerfrei entziffern.
Foto: Klaus-Dietmar Gabbert, dpa Die Software Würzburger Wissenscha­ftler kann digitalisi­erte historisch­e Drucke fast fehlerfrei entziffern.

Newspapers in German

Newspapers from Germany