Vergleichstest OCR-Tools: Wer «A» scannt, muss auch «A» lesen

In punkto Erkennungsgenauigkeit legen OCR-Programme Jahr für Jahr zu – es fehlt nur noch wenig, bis die 100-Prozent-Hürde erreicht wird.

Artikel erschienen in Swiss IT Magazine 2001/34

     

Papierberge auf dem Schreibtisch kennen wir zur Genüge, meist werden sie sinnvoll verstaut oder landen nach kurzer Einsicht direkt in der Rundablage. Doch in dieser Masse an Papier finden sich auch immer wieder Dokumente, die man gerne auf seinem Rechner in digitaler Form präsent hätte, sei es zur späteren Weiterverarbeitung oder einfach nur, um sie zu archivieren. Diese Dokumente aber abtippen zu müssen, ist mühsam und mit einem grossen Zeitaufwand verbunden. Hier gelangen sogenannte OCR-Programme sinnvoll zum Einsatz.


Was heisst OCR?

Die Abkürzung OCR steht für "Optical Character Recognition" was in Deutsch soviel heisst wie "Optische Zeichenerkennung". Der erste Schritt hierfür ist die optische Abtastung einer Textseite mit einem Scanner. Die gescannte Vorlage wird dann in einzelne Bildpunkte zerlegt, und jedem dieser Bildpunkte wird ein Wert zugeordnet, abhängig davon, ob in Schwarzweiss, Graustufen oder in Farbe gescannt wurde. Die Aufgabe einer OCR-Software ist es dann, im gescannten Abbild nach Buchstaben zu suchen und diese zu interpretieren. Für die Auswertung der Zeichen können verschiedene Technologien zum Einsatz gelangen. Eine Möglichkeit ist es, gescannte und separierte Zeichen mit abgespeicherten Mustern zu vergleichen und je nach Übereinstimmung einem bestimmten Buchstaben zuzuordnen (Pattern Matching). Eine andere Technik ist die Analyse nach Merkmalen von Zeichen (Feature Recognition). Hierbei wird ein Zeichen in geometrische Figuren wie Linien und Kreise unterteilt, und diese Elementen werden dann einem Buchstaben zugeordnet.





Die Erkennungsgenauigkeit

Die Erkennungsgenauigkeit ist wohl das A und O einer solchen Software und stark abhängig von der Vorlagenqualität, aber auch von scannerspezifischen Einstellungen wie beispielweise der Helligkeit. Wer sich in der Typografie näher auskennt, kann auch nachvollziehen, dass die Auswertung ähnlich aussehender Zeichen wie "I" und "1" oder "0" und "O" nicht so einfach zu bewerkstelligen ist, wenn nicht auf Sinnzusammenhänge zurückgegriffen werden kann. Hier spielen dann nebst der programmeigenen Intelligenz vor allem programmspezifische Hilfsmittel wie Wörterbücher oder Trainingsmöglichkeiten das Zünglein an der Waage.



OCR-Programme haben sich in den letzten Jahren stark verbessert, vor allem die vorher abgehandelte Erkennungsgenauigkeit wurde von Version zu Version deutlich gesteigert. Dies insbesondere darum, weil sich die Lernfähigkeit solcher Tools wieder und wieder steigern liess und sich somit reproduzierbare Lese- oder Interpretationsfehler weitestgehend schon im voraus eliminieren lassen. Es ist zwar nach wie vor eine Utopie, eine hundertprozentige Erkennung zu erwarten, aber was ist denn in der heutigen Zeit schon 100 Prozent? Und 99 Prozent ist doch auch schon was. Aber auch die gestellten Anforderungen an eine solche OCR-Software haben sich mit fortlaufender Zeit geändert. Zielten die Bedürfnisse bis vor kurzem noch weitgehend dahin, einen Brief oder einen mehrspaltigen Text möglichst fehlerfrei zu erkennen, um ihn später in einem anderen Programm verwenden zu können, sind die Ansprüche von heute weitaus grösser. Nicht nur die blosse Erkennung wird vorausgesetzt, sondern auch eine layoutgetreue Rekonstruktion der gescannten Seiten, sei dies die Übernahme von Schrifttypen und deren Stilen wie "Fett" oder "Kursiv" oder gar die getreue Wiedergabe von Schriftgrösse und -farbe. Ebenso wird auf eine exakte Darstellung und Integration von Bildern sowie auf korrekt formatierte Tabellen mehr und mehr Wert gelegt. Wahrlich keine leichte Aufgabe, und doch kommt man diesem Ziel Version für Version näher.





Die Testkandidaten

InfoWeek testete drei solcher OCR-Programme: es sind dies Abbyys
FineReader Pro 5.0, OmniPage Pro 11 aus dem Hause Scansoft und Readiris Pro 6 von Iris. Beim Test wurden bewusst keine Sondereinstellungen wie bespielsweise Scanparameter oder Trainingsmodi verwendet, wie sie jedes Programm mehr oder weniger zu bieten hat, sondern es wurde mit den "hauseigenen" Standard-Einstellungen des jeweiligen Anbieters getestet. Die Resultate waren dann auch sehr unterschiedlich.



Bei fast allen Tests waren Scansofts OmniPage und Abbyys FineReader gleichauf. Dies weniger, was die Erkennungsgenauigkeit betrifft, als vielmehr in den Möglichkeiten der Weiterverarbeitung der eingelesenen Dokumente und deren originalgetreuen Rekonstruktion.





FineReader Pro 5.0

FineReader Pro 5.0 von Abbyy unterscheidet sich in unserem Test unwesentlich von seinem Hauptkonkurrenten OmniPage. Nach der simplen Installation erfreut beim Start der Software ein fachkundiger Assistent namens "Scan&Read"-Wizard und führt verständlich Schritt für Schritt durch den kompletten Erkennungsvorgang. Alle benötigten Einstellungen können mit Hilfe des Assistenten kompetent vorgenommen werden, ohne dass es nötig wird, im Handbuch nachzuschauen. Die Bedienoberfläche ist sehr überschaulich und garantiert ein leichtes Einstellen spezifischer Konfigurationen. Auch FineReader unterteilt den Schreibtisch in drei Bereiche, in denen sich effizient Arbeiten lässt. Der Korrektureditor ist erster Güte und erlaubt es, Korrekturen auf einfachste und schnellste Weise vorzunehmen. Dabei werden 26 Sprachen unterstützt. Die Erkennungsgenauigkeit von FineReader lässt kaum Wünsche offen und hat bei allen Testvorlagen überzeugt. Besonders erwähnenswert ist die Erkennung von Faxvorlagen, bei denen FineReader die kleinste Fehlerquote aller Testprogrammen aufwies.



Die Einteilung in Textblöcke und Bildelemente wurde im Automatikmodus sehr gut vorgenommen und sogar senkrechte Texte, wie sie beispielsweise in Tabellenbeschriftungen vorkommen, wurden richtig erkannt. FineReader Pro 5.0 kam in der Rekonstruktion der Seiten mit Ausnahme der Tabelle überall dem Original am nächsten. Vor allem das aus der Magazinseite erstellte PDF-Format erzielte beinahe 100 Prozent Detailtreue. Nebst 121 Sprachen erkennt FineReader Pro 5.0 auch die Programmiersprachen Basic, C/C++, COBOL, Fortran, JAVA und Pascal.





OmniPage Pro 11

Scansofts OmniPage Pro 11 bietet, wie schon aus früheren Versionen bekannt, eine übersichtliche Bedienoberfläche, die sich aber in punkto Anwenderfreundlichkeit nochmals verbessert hat. Grosse Schaltflächen erleichtern die automatische oder manuelle Bearbeitung, und der Assistent lässt kaum Fragen offen. Der Bildschirm unterteilt sich in drei Arbeitsflächen, in denen die gescannte Seite im Mini-Format, das Bitmap-Abbild der Vorlage und zu guter Letzt das Erkennungsergebnis angezeigt werden. OmniPage Pro 11 kommt aber auch mit einigen neuen und nützlichen Features. So können beispielsweise PDF-Dateien nicht nur in vier Formaten geschrieben, sondern auch direkt eingelesen und in bearbeitbare Dokumente umgewandelt werden. Letzteres ist sicherlich einer der gewichtigsten Vorteile gegenüber den Mitbewerbern. Die Vorlesefunktion "Voice Readback", über die OmniPage als einziges Tool verfügt, verblüfft ebenfalls, und zwar sehr positiv. Eingelesene Texte können damit akustisch überprüft werden, und Unstimmigkeiten werden noch besser erkannt. Die Installation der Software erweist sich als sehr einfach und beeinhaltet eine menügeführte Scannerkonfiguration.



In Sachen Erkennungsgenauigkeit hat das Programm noch mehr zugelegt und steht seinem grössten Kontrahenten FineReader in nichts mehr nach. Ein komfortabler und übersichtlicher Korrektureditor erlaubt es, Änderungen beim gleichzeitigen Einblick in die Originalvorlage der zu korrigierenden Passage vorzunehmen. Schade nur, dass das Fenster, in dem man die Korrektur anbringen kann, ausgerechnet das kleinste ist. Die neue Programmfunktion "IntelliTrain" automatisiert die OCR-Nachbearbeitung zusätzlich. Hierbei merkt sich die Software Korrekturschritte von Fehlern nach dem Scannen, beispielsweise nicht erkannte Zeichen, und übernimmt sogleich die Ausbesserungen im gesamten Dokument, was bei der Verarbeitung enorm Zeit sparen kann.




Bei der Layoutübernahme zeigte das Programm dann doch einige Mängel. Die gescannten Seiten wurden zwar in der Regel dem Original ähnlich wiedergegeben, meist jedoch vergass der Automatik-Modus, ein oder mehrere Bilder miteinzubinden. Es ist anzunehmen, dass dieser Mangel mit manuellen Einstellungen vor der Erkennung behoben werden kann. Auch die Weiterverarbeitung in einer Word-Datei kommt nicht ganz an jene von FineReader heran. Spalten werden zwar richtig wiedergegeben, überlappen sich aber meist. Beinahe gänzlich verloren ging das Layout beim Export in eine HTML-Datei, wie übrigens bei allen Testkandidaten.




Readiris Pro 6

Readiris Pro 6 von Iris hat sich zwar verglichen mit seiner Vorgängerversion in vielen Punkten merklich gesteigert, weist aber gegenüber FineReader oder OmniPage dennoch gewichtige Mängel auf. Wo bei der Erkennung der Magazinseite oder des Musterbriefes noch unwesentliche Qualitätsunterschiede auftraten, zeigten sich diese umso deutlicher bei der Verarbeitung von Faxvorlagen. Auch die Bedienoberfläche reisst einen kaum vom Hocker. Sie beinhaltet zwar ein paar nette Grafikelemente, die aber hinsichtlich Funktionalität nichts bringen. Auch nach dem Scan einer Seite überzeugt die Darstellung wenig, zu verwirrend präsentieren sich die Linien und gelb hinterlegten Textblöcke. Nicht schlecht kommt dagegen der Assistent daher, der einem die Arbeit mit dieser Software doch ziemlich erleichtert, jedoch nicht an die Assistenten von FineReader oder OmniPage herankommt. Der merklichste Unterschied zu den anderen Progammen liegt jedoch im Korrektureditor, der sich bei Readiris wirklich enttäuschend präsentiert. Er ist sehr unübersichtlich, und bei vielen Korrekturen verliert man eine Unmenge an Zeit.



Readiris rekonstruiert das Layout der Seiten zufriedenstellend, und insbesondere die Rekonstruktion der Tabelle war Spitze und übertrumpfte alle anderen. Leider fehlt eine Exportmöglichkeit im PDF-Format, was heutzutage doch eher eine Pflicht und somit für ein OCR-Programm vorauszusetzen ist. Bleibt zu vermerken, dass Readiris die Erkennung von allen Testkandidaten am schnellsten abwickelt, dies aber leider ein wenig auf Kosten der Genauigkeit.





Fazit

Alle drei getesteten OCR-Programme erreichen eine gute Erkennungsgenauigkeit bei qualitativ ausreichenden Vorlagen. Der dafür benötigte Zeitaufwand liegt im Sekundenbereich, rechnet man die Zeit für den Scan mal ab. Für Fax- oder Matrixvorlagen ist es aber zwingend, sich intensiver mit den Programmen und deren spezifischen Einstellmöglichkeiten auseinanderzusetzen, um brauchbare Resultate zu erlangen. Alle Tools sind durchs Band sehr bedienungsfreundlich und setzen auch die Rekonstruktion eines Seitenlayouts oder einer Tabelle gut um. Überraschend jedoch sind die Preisunterschiede, kriegt man doch unseren Testsieger FineReader Pro 5.0 schon für unter 150 Franken, obwohl das Programm sich nur unwesentlich vom etwa acht Mal teureren OmniPage Pro 11 unterscheidet.



Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Vor wem mussten die sieben Geisslein aufpassen?
GOLD SPONSOREN
SPONSOREN & PARTNER