Tex­ter­ken­nung

Für Li­nux gibt es ei­ne kos­ten­lo­se Tex­ter­ken­nung, die zu den bes­ten über­haupt zählt. Al­lei­ne we­gen Tes­ser­act OCR lohnt es sich, Li­nux zu nut­zen.

PC-WELT - - Das Kann Linux Besser Als Windows / Texterkennung - VON DA­VID WOLSKI

ES IST KEIN PRO­BLEM, TEX­TE ALS Bild­da­tei­en zu spei­chern. Der um­ge­kehr­te Weg, ein ein­ge­scann­tes oder ab­fo­to­gra­fier­tes Do­ku­ment wie­der zu ei­nem Text zu ma­chen, ist nicht so ein­fach. Wenn auch noch Spal­ten­lay­out, Bild­ele­men­te und vie­le Un­ge­nau­ig­kei­ten auf dem Scan auf­tre­ten, be­nö­tigt ei­ne Tex­ter­ken­nungs­soft­ware ei­ne hoch­ent­wi­ckel­te Mus­ter­er­ken­nung. Nur aus­ge­reif­te OCR­Pro­gram­me wer­den hier ein pas­sa­bles Er­geb­nis zu­stan­de­brin­gen. Zu den bes­ten Tex­ter­ken­nungs­pro­gram­men ge­hört das Li­nux­Tool Tes­ser­act OCR.

Wich­tig: Ho­he Er­ken­nungs­ra­ten

Ei­ne OCR­Soft­ware darf kei­ne ho­hen Feh­ler­ra­ten ha­ben. Weil bei der Di­gi­ta­li­sie­rung gan­zer Sei­ten schnell zehn­tau­sen­de Zei­chen an­fal­len, pro­du­ziert ei­ne Feh­ler­ra­te von we­ni­gen Pro­zent ei­ne statt­li­che An­zahl fal­scher Buch­sta­ben und macht ma­nu­el­le Nach­ar­beit er­for­der­lich. OCRPro­gram­me zie­len aus die­sem Grund bei der Er­ken­nung la­tei­ni­scher Schrift­zei­chen auf ei­ne Ra­te von min­des­tens 98 Pro­zent. Tes­ser­act OCR ist der­zeit das ein­zi­ge Open­Sour­ce­Pro­gramm, das in die­ser Li­ga spielt. In Tes­ser­act OCR ste­cken über zwan­zig Jah­re Ent­wick­lungs­zeit: 1985 be­gann HP mit der Ar­beit an ei­ner Tex­ter­ken­nung, die es bis 1994 auf ei­ne Prä­zi­si­on von 98,7 Pro­zent brach­te. Ob­wohl es da­mit die Mit­be­wer­ber in den Schat­ten stell­te, schaff­te es Tes­ser­act nie zu ei­ner fer­ti­gen Ver­si­on, die HP mit sei­nen Flach­bett­scan­nern hät­te aus­lie­fern kön­nen. Von 1995 bis 2005 ruh­te das Pro­jekt kom­plett und HP ver­öf­fent­lich­te Tes­ser­act schließ­lich als Open Sour­ce (Apa­che­Li­zenz), als es schon bei­na­he ir­re­le­vant war. Denn für ei­ne kom­plet­te OCRSoft­ware fehl­te noch die au­to­ma­ti­sche Lay­ou­t­ana­ly­se, die mehr­spal­ti­gen Text ver­ar­bei­ten konn­te. Die be­nutz­ten Al­go­rith­men, die Mus­ter in ei­ner Pi­pe­line schritt­wei­se bis zum fer­ti­gen Wort ver­ar­bei­ten, schlu­gen sich al­ler­dings im­mer so gut, dass sich Goog­le des Pro­jekts an­nahm. Goog­le be­nö­tig­te ei­ne OCR­Soft­ware für das On­li­ne­an­ge­bot Goog­le Books und ent­wi­ckel­te Tes­ser­act OCR wei­ter. Seit 2006 ist die Lay­ou­t­ana­ly­se hin­zu­ge­kom­men so­wie ei­ne Zei­chen­er­ken­nung für nicht eu­ro­päi­sche Spra­chen. Tes­ser­act OCR reif­te zur ak­tu­el­len 3erVer­si­on, die in den Pa­ket­quel­len al­ler gro­ßen Li­nux­Dis tri­bu­tio­nen vor­liegt.

Bild­ma­te­ri­al vor­be­rei­ten

Auf­grund der Ar­beits­wei­se von Tes­ser­act OCR muss die Bild­grö­ße so ge­wählt wer­den, dass Buch­sta­ben min­des­tens ei­ne Hö­he von 20 Pi­xel ha­ben. Dies ent­spricht ei­ner Auf­lö­sung von 300 dpi bei ei­ner Schrift­grö­ße von zehn Punkt. Ge­ne­rell gilt: je mehr Pi­xel, des­to bes­ser. Lie­gen die Scans oder Fo­to­gra­fi­en in ei­ner nied­ri­ge­ren Pi­xel­dich­te vor, so muss die­se mit ei­ner Bild­be­ar­bei­tung wie Gimp erst noch auf ei­ne hö­he­re Auf­lö­sung ge­bracht wer­den. Wor­auf Tes­ser­act OCR sehr ver­schnupft re­agiert, sind stark ver­zerr­te Grund­li­ni­en von Text­zei­len und ver­dreh­te Sei­ten, wie sie bei ab­fo­to­gra­fier­ten Buch­sei­ten ent­ste­hen. Die­se De­fek­te soll­ten so weit wie mög­lich kor­ri­giert wer­den.

Tes­ser­act in­stal­lie­ren und nut­zen

Tes­ser­act selbst lie­fert nur die OCR­En­gi­ne, die als Kom­man­do­zei­len­tool ar­bei­tet. Ziel der Ent­ wick­ler ist es, Tes­ser­act OCR so fle­xi­bel zu hal­ten, dass es auch an­de­ren OCR­Pro­jek­ten als zen­tra­le Kom­po­nen­te die­nen kann. Es gibt auch gra­fi­sche Front­Ends zu Tes­ser­act OCR. Der ers­te Schritt aber ist die In­stal­la­ti­on der Tex­ter­ken­nung zu­sam­men mit den se­pa­ra­ten Sprach­da­tei­en, die der Mus­ter­er­ken­nung die be­nö­tig­ten In­for­ma­tio­nen lie­fern. In De­bi­an/Ubu­ntu in­stal­lie­ren Sie die OCR­An­wen­dung mit Er­ken­nungs­mus­ter für deut­schen und eng­li­schen Text mit die­sem Be­fehl: su­do apt-get in­stall tes­ser­ac­to­cr-deu tes­ser­act-ocr-eng tes­ser­act-ocr In Open Su­se hei­ßen die Pa­ke­te an­ders und kön­nen mit: su­do zyp­per in­stall tes­ser­ac­to­cr-trai­ned­da­ta-ger­man tes­ser­act-ocr-trai­ned­da­ta­eng­lish tes­ser­act-ocr nach­ge­rüs­tet wer­den. Fe­do­ra schließ­lich in­stal­liert mit dem Be­fehl: su­do dnf in­stall tes­ser­act

tes­ser­act-lang­pack-deu al­le Pa­ke­te, da Eng­lisch be­reits im Ba­sis­pa­ket ent­hal­ten ist. Da­ne­ben gibt es für Tes­ser­act OCR 3.0x noch über hun­dert wei­te­re Sprach­da­tei­en und auch Da­ten für be­son­de­re Fonts wie bei­spiels­wei­se Frak­tur­schrift. Als pu­res Kom­man­do­zei­len­tool er­war­tet Tes­ser­act OCR die Über­ga­be ei­ner hoch­auf­lö­sen­den Bild­da­tei (300 dpi) in den For­ma­ten JPG, PNG, TIFF oder BMP. Ein ma­nu­el­ler Auf­ruf er­folgt nach die­ser Syn­tax: tes­ser­act [Bild­da­tei] [Text­da­tei]

-l [Spra­che]

Er­ken­nen auf Kom­man­do: Tes­ser­act OCR ist ein Pro­gramm für die Be­fehls­zei­le. Erst gra­fi­sche Fron­tEnds ma­chen aus der Tex­ter­ken­nung ei­ne Desk­top-An­wen­dung.

Newspapers in German

Newspapers from Germany

© PressReader. All rights reserved.