Tes­ser­act: So funk­tio­niert die gu­te Tex­ter­ken­nung

PC-WELT - - Das Kann Linux Besser Als Windows / Texterkennung -

Tes­ser­act OCR ist re­la­tiv lang­sam, denn sei­ne Prä­zi­si­on er­reicht das Pro­gramm mit ei­ner un­ge­wöhn­li­chen Aus­wahl von Al­go­rith­men, die nach der gro­ben Auf­tei­lung ei­ner Sei­te in Lay­ou­t­e­le­men­te den Um­riss von Zei­chen nach­zeich­nen und in Hier­ar­chi­en glie­dern. Die­ses Ver­fah­ren kos­tet viel Re­chen­zeit, hat aber den Vor­teil, dass es auch in­ver­tier­ten Text mit wei­ßer Schrift auf schwar­zem Grund er­kennt. Die Um­ris­se wer­den zu For­men („Blobs“), die den Text­fluss in Zei­len glie­dern. Bei ei­ner dick­ten­glei­chen Schrift geht es zur Er­ken­nung ein­zel­ner Buch­sta­ben, bei pro­por­tio­na­len Schrift­bil­dern er­folgt die Ab­gren­zung nach Wör­tern. Die ei­gent­li­che OCR läuft dann in zwei Pha­sen ab: Ei­ne Mus­ter­er­ken­nung fin­det Wör­ter an­hand be­kann­ter Merk­ma­le, ist da­bei aber lern­fä­hig und ge­ne­riert für das ak­tu­el­le Do­ku­ment ei­nen neu­en Ka­ta­log von Mus­tern. Ein zwei­ter Durch­lauf nimmt die­sen tem­po­rä­ren Ka­ta­log zur Hand, um even­tu­ell noch nicht er­kann­te Wör­ter zu iden­ti­fi­zie­ren.

Blobs statt Buch­sta­ben: Tes­ser­act OCR fasst die Um­ris­se von dick­ten­glei­cher Schrift oder von gan­zen Wör­tern erst zu lo­sen For­men zu­sam­men.

Newspapers in German

Newspapers from Germany

© PressReader. All rights reserved.