In den 1930er Jahren erfand der ungarische Ingenieur Emanuel Goldberg die Optical Character Recognition (OCR), eine optomechanische Vorrichtung namens «Statistische Maschine», die Fotos in maschinenlesbaren Text umwandelte. Die Maschine nutzte optische Linsen und mechanische Sensoren, um Zeichen zu analysieren und interpretieren.
Die OCR-Technologie entwickelte sich weiter und wurde in den 1970er Jahren durch die Einführung von elektronischen Scannern und Computern kommerziell nutzbar gemacht, was ihre Anwendung in verschiedenen Bereichen ermöglichte. Der Durchbruch erfolgte in den 1990er Jahren, als Adobe das Portable Document Format (PDF) einführte, das allgegenwärtige Dateiformat für Dokumentenübertragung und -darstellung.
Obwohl die OCR-Technologie stetig fortschritt, blieb die Extraktion anfänglich auf bestimmte Schriftarten und Layouts begrenzt. Daher wurden starre Vorlagen, sogenannte Templates, eingeführt, um das Erkennen von Zeichen zu unterstützen und die extrahierten Daten zu strukturieren. Diese Templates definieren die Position der zu erkennenden Daten, was besonders bei speziellen Anwendungen wie Rechnungsverarbeitung nützlich ist. Heute nutzen Firmen das Trio aus PDF, OCR und Templates erfolgreich, um Text aus PDF-Dokumenten zu extrahieren und in bearbeitbare Formate umzuwandeln. Template-basierte OCR eignet sich besonders für einheitliche Dokumententypen einer bestimmten Sprache und Struktur. Bei Layout- oder Dokumentenänderungen ist jedoch die Erstellung neuer Templates erforderlich, um weiterhin präzise strukturierte Informationen zu erfassen.
Game Changer KI revolutioniert auch OCR
Machine Learning ist ein Zweig der künstlichen Intelligenz (KI), bei dem mathematische Modelle verwendet werden, um Computern das Lernen ohne menschliche Anweisungen zu ermöglichen. Es ermöglicht der Maschine, intelligentes menschliches Verhalten zu replizieren und macht Vorhersagen für die Zukunft basierend auf vergangenen und aktuellen Daten.
Wenn man nun Machine Learning mit OCR-Software vereint, kann man auf einen Schlag den allgemeinen Kontext eines Dokuments nicht nur erkennen, sondern inhaltlich verstehen. Vergleichbar wie wenn ein Mensch liest, wird jedem extrahierten Datenfeld – egal ob Wort oder Zahl – die richtige Bedeutung zugemessen. Der Einsatz von modernen, KI-gestützten OCR-Technologien und maschinellem Lernen hat seit einigen Jahren die Notwendigkeit starrer Templates stark reduziert – teilweise schon obsolet gemacht.
Vorteile von Machine Learning für OCR-Systeme
- Flexibilität: KI-gestützte OCR-Systeme können Informationen aus verschiedenen Arten von Dokumenten extrahieren, ohne dass spezifische Templates für jedes Dokument vorab erstellt werden müssen. Sie sind in der Lage, sich an unterschiedliche Layouts und Formatierungen anzupassen und können somit mit einer Vielzahl von Dokumenten arbeiten.
- Unstrukturierte Daten: Traditionelle Template-Extraktion funktioniert gut, wenn die Daten in den Dokumenten in einem strukturierten Format vorliegen. Wenn jedoch Informationen unstrukturiert oder in unterschiedlichen Anordnungen erscheinen (beispielsweise in Tabellen), kann die Template-Extraktion ineffizient oder ungenau sein. KI kann unstrukturierte Daten analysieren und relevante Informationen identifizieren.
- Skalierbarkeit: Die Erstellung von Templates kann zeitaufwändig und mühsam sein, insbesondere wenn viele verschiedene Arten von Dokumenten verarbeitet werden müssen. KI-basierte OCR-Systeme können hingegen automatisiert und skalierbar sein, sodass sie mit einer grossen Anzahl von Dokumenten arbeiten können, ohne dass für jedes Dokument ein individuelles Template erstellt werden muss.
- Anpassungsfähigkeit: KI kann kontinuierlich dazulernen und sich verbessern, je mehr Daten sie verarbeitet. Dadurch kann sie sich besser an neue oder sich ändernde Dokumententypen und Formate anpassen, ohne dass menschliche Eingriffe erforderlich sind, um neue Templates zu erstellen.
- Fehlerreduktion: Template-Extraktion ist anfällig für Fehler, insbesondere wenn es zu Abweichungen in der Dokumentenstruktur kommt. KI kann mit modernen Algorithmen und Techniken die Genauigkeit und Konsistenz bei der Extraktion verbessern und dadurch Fehler minimieren.
Obwohl KI die Template-Extraktion in vielen Fällen obsolet machen kann, gibt es dennoch Anwendungsbereiche, in denen Templates weiterhin nützlich und sinnvoll sind, besonders wenn bestimmte Formatierungen und Datenstrukturen unbedingt beibehalten werden müssen. Dennoch bieten KI-gestützte OCR-Systeme eine leistungsfähige und vielseitige Alternative, um Informationen aus Dokumenten zu extrahieren, ohne auf vordefinierte Templates angewiesen zu sein.
Neue Ära: KI-basierte Prozessautomation
Dank OCR Machine Learning ist es möglich, innert Sekunden aus einem PDF strukturierte Daten zu bekommen. Gerade bei der Extraktion aus Tabellen, wie man sie von Lieferscheinen oder Eingangsrechnungen kennt, war das bei der Template-basierten OCR-Extraktion gar nie möglich, weil Tabellen im Layout variieren. Dank KI-Technologie wurde damit ein weiterer Quantensprung ermöglicht: die vollständige Prozessautomation von PDF-Dokumenten.
Noch heute verschwenden weltweit Millionen von Fachkräften ihre Zeit mit der mühsamen und manuellen Verarbeitung von eingehenden Eingangsrechnungen, Lieferscheinen oder Auftragsbestätigungen. Aufwändig ist es, die extrahierten Daten mit den Daten im ERP zu vergleichen, um bei Abweichungen möglichst früh richtig zu reagieren. Obendrein werden Fehlerquellen beim Abtippen auf einen Schlag beseitigt. Durch Plug-and-Play-Anbindungen in jedes ERP kann man heute schon mit wenigen Tagen Aufwand KI-basierte Automations-Tools nutzen.
Durch die Automation von Dokumenten sparen Unternehmen einerseits Geld, andererseits erheblich Zeit. Im Vordergrund der ERP-Prozessautomation steht die Zeitersparnis als Kombination aus Vollautomationsrate des PDFs und Beschleunigung der Mitarbeiter bei Entscheidungen.
Gerade in Zeiten des Fachkräftemangels ist es Gold wert, wenn Mitarbeiter und Mitarbeiterinnen ihre Arbeitszeit mit wertschöpfenden Tätigkeiten verbringen.
Und einmal mehr wiederholt sich die Geschichte: Ähnlich wie der «Unimate» im Jahr 1954 als erster Industrieroboter in der Fertigung eingesetzt wurde, um das Schweissen von Autoteilen durchzuführen und den Fliessbandarbeitern repetitive manuelle Aufgaben abzunehmen, leistet heute die KI-basierte Prozessautomation im Backoffice einen vergleichbaren Dienst, indem sie Fachkräften die wiederholende manuelle Arbeit abnimmt und somit Raum für kreativere Tätigkeiten schafft.
Die Autorin
Sabrina Schenardi ist Mitgründerin des ETH- und HSG-Spin-off
BLP Digital, das seit 2019 eingehende PDF-Dokumente ins ERP mit KI automatisiert. Sie hat einen Executive MBA in Business Engineering, den sie während ihrer Tätigkeit in der Innovationsabteilung bei der Schweizer Börse SIX erwarb.