Dokumenten-Management: Sichere Anlegestellen bei Informationsflut
Artikel erschienen in Swiss IT Magazine 2001/12
Die Geschichte der Association for Information and Image Management, kurz AIIM International, zeigt deutlich, wie sich der Umgang mit Dokumenten im Unternehmen in den letzten Jahrzehnten gewandelt hat: Die Branchenorganisation wurde 1943 als "National Microfilm Association" gegründet; heute versorgt sie Mitglieder und Interessenten mit News, Studien und Konferenzen über sämtliche Themen, die irgendwie mit dem unternehmensweiten Management von Daten, Informationen und Wissen zu tun haben.
In den letzten Monaten stehen neben den klassischen, auf Imaging-, Archiv- und Retrievalfunktionen ausgerichteten Dokumenten-Management-Systemen (DMS) immer mehr Applikationen aus den Bereichen Knowledge Management (KM), Web Content Management (WCM), Customer Relationship Management (CRM) sowie generell E-Business und ERP im Zentrum des Interesses.
Zwischen diesen Bereichen lassen sich keine klaren Grenzen festlegen, denn keine der genannten Disziplinen kommt ohne Dokumente aus. Egal ob es sich um eine firmeninterne Weisung per E-Mail, einen Werbebrief, eine Verkaufsquittung, die Konzern-Website, die Notizen zu einem telefonischen Kundenkontakt oder die letzte Mahnung handelt - irgendwie lässt sich jede Interaktion innerhalb des Unternehmens oder mit Geschäftspartnern in Form eines Dokuments niederlegen.
Es gibt Dutzende von Definitionen für den Begriff des Dokuments. Eine der allgemeinsten und zugleich treffendsten: Ein Dokument ist ein Träger zusammenhängender Informationen, die zum Zweck des Verständnisses durch den Menschen zusammengestellt wurden. Anders ausgedrückt: Das Dokument ist nicht die Information selbst. Es kann Informationen aus mehreren verschiedenen Quellen enthalten, und es dient dazu, menschliche Rezipienten zu informieren. Oder etwas einfacher: Ein Dokument ist nichts als ein Behälter, in dem wir Informationen speichern.
Als Dokumenten-Management bezeichnet man den Prozess, Dokumente durch ihren gesamten Lebenszyklus zu verwalten. Das umfasst alle Schritte von der ersten Idee über das Erstellen, die Korrektur- und Genehmigungsprozessse, die Speicherung, die Verteilung und Publikation bis hin zur Löschung eines Dokuments. Ein komplettes Dokumenten-Management-System umfasst demnach die folgenden Bereiche:
Imaging: Umwandlung von Papierdokumenten in elektronische Formate, meist via Scanner oder Digitalkamera. Neben TWAIN-basierten Scan-Funktionen und teilweise integrierten OCR-Programmen, mit denen jeder Client mit Hilfe eines Desktop-Scanners selbst Dokumente erfassen kann, hält der Markt auch Hochleistungs-Scan-Lösungen und Scan-Servicebüros für grosse Volumina bereit. Diese sind insbesondere dann wichtig, wenn von bestehenden Papierarchiven auf ein DMS migriert werden soll. Interessant sind die Features iCopy und Internet Fax von Docupact 2000. Sie ermöglichen das Archivieren eingescannter Dokumente auch vom Web-Client aus und gestatten sogar, ein Dokument mit Hilfe eines Deckblattes, das die passenden Barcodes enthält, per Fax korrekt samt Klassifikation ins Archiv zu bringen.
Integration elektronischer Dokumente: Ein modernes DMS verwaltet nicht bloss Texte. Alle vorgestellten Systeme unterstützen neben ASCII-Text, RTF und Word zahlreiche weitere Textformate, Spreadsheets, Bilder, Ton- und Videodateien. Die Produktunterlagen der Hersteller sprechen ausnahmslos von "Hunderten von Formaten". Wird das DMS in einer E-Business-Umgebung eingesetzt, sind direkte Schnittstellen zum ERP-System essentiell. Mehrere Produkte bieten direkte Integration mit der führenden ERP-Anwendung R/3 von SAP. Als Basis dient die ArchiveLink-Schnittstelle, die SAP gemeinsam mit dem auf R/3-Archivierung spezialisierten DMS-Anbieter Ixos entwickelt hat. Andere ERP-Systeme lassen sich meist nur über individuell programmierte Anbindungen integrieren.
Klassifikation: Einteilung der Dokumente nach verschiedenen Kriterien zum erleichterten Wiederauffinden. Hilfsmittel dazu sind die hierarchische Struktur des Archivs, die oft der traditionellen Bürowelt entspricht (Aktenschrank, Ordner, Dokument), sowie verschiedene, im Idealfall frei definierbare Eigenschaftsfelder. Das Archiv enthält somit nicht nur den Dokument-Inhalt, sondern auch Meta-Informationen zur Beschreibung der Dokumente.
Archiv: Speicherung der elektronischen Dokumente; je nach Zugriffsfrequenz auf Online- (Disk-Array) oder Offline-Medien (CD, LaserDisc oder andere Optical-Medien, Tape). Die vorgestellten Suiten bieten im Gegensatz zu aufgemotzten Adressverwaltungen und Produkten aus der Shareware-Szene, die oft auch als Document Management System verkauft werden, durch den flexiblen Einsatz mehrerer Dokumentenserver (Repositories) eine hohe Skalierbarkeit. Dokumente werden entweder gezielt pro Benutzergruppe auf einem bestimmten Server gelagert oder durch das System selbständig auf die vorhandenen Server verteilt. Einige Produkte, allen voran die Panagon Content Services von Filenet, warten darüber hinaus mit Load Balancing zwischen den Repositories auf: Wenn ein Server überlastet ist, werden Anfragen automatisch zu einem weniger belasteten Server umgeleitet.
Retrieval: Hierunter werden Suchfunktionen zum Auffinden von Informationen verstanden. Ein gutes DMS erlaubt sowohl die gezielte Suche nach Kategorien und Eigenschaften (Property Search) als auch eine schnelle Volltextsuche für Textdokumente (Content Search) - auch dies im Gegensatz zu Entry-Level-Produkten, die oft keine Volltextsuchmaschine enthalten. Selbstverständlich sind dagegen Features wie Boolesche Verknüpfung von mehreren Suchkriterien (und/oder), Ähnlichkeitssuche ("Stengel" findet auch "Stängel") und Suche nach ganzen Wörtern, Wortbestandteilen und Wortkombinationen. Ebenfalls wichtig: die Möglichkeit, eine Kombination von Suchbegriffen zur späteren Wiederverwendung zu speichern (Stored Search). Einige Produkte erlauben auch das Anlegen von Such-Templates, die unbedarfteren Usern eine ausgewählte Reihe von Eigenschaftsfeldern zum Ausfüllen präsentieren, die für ihren Anwendungsbereich von Belang sind. Für die Suche bieten die meisten Systeme sowohl einen Windows- oder Unix-Client (andere Betriebssysteme werden selten unterstützt) als auch einen Web-Client, mit dem sich das Archiv von jedem Browser aus durchforsten lässt. Besonders weit geht Ceyoniq, deren DM-Suite neben einem einfachen Web- und einem Windows-Client auch eine Java-basierte Oberfläche, einen erweiterten HTML-basierten Client sowie die Integration der Client-Software in Outlook oder den Windows-Explorer bietet.
Viewing: Nicht jeder User hat auf seiner Arbeitsstation alle Programme installiert, mit denen die Dokumente ursprünglich erzeugt wurden. Ein DMS enthält deshalb üblicherweise eine Viewer-Applikation, mit der beliebige Formate betrachtet und gedruckt werden können. Oft wird auch neben dem Originaldokument eine Zweitversion in einem Standardformat wie PDF und eine Bildrepräsentation des Dokuments, meist im TIFF-Format, mitarchiviert.
Workflow: Die meisten Dokumente durchlaufen zwischen Erstellen und Löschen eine Kette von Stationen. Ein Mitarbeiter erstellt das Dokument - oder es wird durch eine E-Business-Anwendung automatisch generiert -, ein anderer redigiert es, und ein dritter genehmigt die definitive Version. Die vorgestellten DMS-Suiten bieten durchwegs Workflow-Funktionen, die solche Revisionsprozesse elektronisch unterstützen. Drei wesentliche Features: Das Dokument kann mit Anmerkungen ergänzt werden (Annotation), es kann durch verschiedene Mitarbeiter nacheinander oder parallel genehmigt werden (Approval), und bei jeder Änderung werden nachvollziehbar sowohl die neue als auch die alte Version archiviert (Versioning).
Publikation: Neben der expliziten Suche per GUI- oder Web-Client enthält ein Teil der Produktesuiten auch einen Portalserver zur Veröffentlichung von Informationen aus dem DMS im Intranet oder Internet. Das DMS wird damit gleichzeitig zum Web Content Management System.
Eine der früher wichtigsten Phasen des Dokumenten-Managements tritt heute eher in den Hintergrund: Das Document Imaging, die Umwandlung bestehender Papierdokumente in ein elektronisch lesbares Format, wird zunehmend überflüssig. Zahlreiche Dokumente liegen ja bereits elektronisch vor, und Techniken wie die digitale Unterschrift und Zertifikate erlauben den alleinigen Einsatz elektronischer Archive auch in geschäftskritischen Bereichen.
Umso mehr wird das DMS deshalb zur kritischen Schaltstelle in der IT-Infrastruktur. Es geht nicht mehr bloss um das Archivieren von Dokumenten, die man eigentlich gar nie mehr braucht und nach einiger Zeit löscht, sondern darum, dass jederzeit lückenlos auf alle Transaktionen zurückgegriffen werden kann, etwa bei juristisch strittigen Fragen. Wenn wie beim E-Business gar keine Dokumente auf Papier mehr existieren, wird das elektronische Archiv zur Notwendigkeit.
Einen Sinn ergeben die im Dokument gespeicherten Informationen nur dann, wenn jemand etwas mit dem Inhalt anzufangen weiss. Dies ist die wichtigste Prämisse für alle Dokumenten-Management-Anwendungen: Auch wenn moderne Systeme mit automatischer Klassifikation, Fuzzy-Logic-Suchmöglichkeiten und anderen Artificial-Intelligence-Techniken auftrumpfen, ist die Software grundsätzlich dumm.
Nur der kundige Anwender kann aus den archivierten Daten sinnvolle Informationen und damit auch echten Nutzen gewinnen. Jedem Internet-Surfer ist das Problem am Beispiel der Suchmaschinen klar: Ohne eine ausgefeilte Suchtechnik und eine hirnintensive Auswertung der Ergebnisse kommt man kaum zum gewünschten Erfolg.
Unsere Übersicht konzentriert sich auf Document-Management-Suiten der Enterprise-Klasse, die sich für mittlere und grössere Umgebungen eignen. Für kleinere Betriebe genügt meist eine einfachere Dokumentenverwaltung, wie sie in den meisten gängigen Adress- und Kontaktmanagern integriert ist: Einer Kontaktadresse können beliebige Dokumente angehängt werden, so dass man jederzeit eine komplette Kunden-History samt Korrespondenz, Telefonnotizen und Belegen zur Verfügung hat. Soll daneben ein Archivsystem für nicht direkt mit Geschäftspartnern verbundene Informationen aufgebaut werden, empfiehlt sich zusätzlich der Einsatz eines einfachen DMS.
Die in der Tabelle aufgeführten Suiten basieren allesamt auf solider technischer Grundlage: Die eigentliche Verwaltung der Dokumente wird durch zentrale Server übernommen; für die Speicherung sind robuste SQL-Datenbanken zuständig. Die Clients dienen primär als Interface zu den Serverfunktionen und übernehmen periphere Aufgaben wie Scannen.
Unterschiede zeigen sich in Aufbau und Orientierung der Produkte. Während zum Beispiel Docuware nach wie vor auf klassisches Dokumenten-Management mit Imaging, Archiv und Retrieval setzt, sieht sich Documentum mit dem Produkt 4i voll und ganz als E-Business-Plattform. Überhaupt positionieren sich die meisten bekannten DMS-Hersteller zumindest in ihren Marketingmaterialien heute als E-Business- oder Content-Management-Companies - vermutlich fürchtet man die Konkurrenz durch neue Player aus der Internet-Wirtschaft. Einige Firmen setzen auch auf Zusammenarbeit mit E-Business- oder Content-Management-Herstellern; so kooperiert Filenet mit Vignette, und Documentum ist Partner von Bea und Siebel. Einige Produkte mit ihren Highlights:
Documentum, einer der ältesten DMS-Hersteller, hat das Kernstück seines Flaggschiffs, den eContent Server der 4i Business Edition, ganz auf XML eingestellt. Dies geht so weit, dass Security-Vorgaben bis zur Ebene einzelner XML-Elemente möglich sind und eingehende XML-Dokumente automatisch in die Struktur des Repository transformiert werden. Neben dem Server umfasst die Suite integrierte Tools zum Erstellen von Inhalten, einen Personalisierungs- und einen Portalserver.
Filenet, ebenfalls ein traditioneller DMS-Hersteller, bezeichnet sich heute als führenden Lieferanten für Content Management und E-Business-Anwendungen. Im Kern des DMS-Angebots stehen die Panagon Content Services. Neben hoher Skalierbarkeit durch Replikation, Load Balancing und automatische Server-Synchronisation bietet die Filenet-Lösung die interessante Möglichkeit von "Compound Documents": Mehrere Dokumente unterschiedlichen Typs lassen sich zu einem Gesamtdokument zusammenfassen, dessen interne Komponenten und Beziehungen durch ein bei der Erstellung generiertes Relationship-Objekt verwaltet werden.
SER hat neben der auch separat erhältlichen, ebenfalls XML-basierten Lösung DMS SERdocware eine komplette Palette von Knowledge-Management- und Workflow-Instrumenten. Die eigentliche Document-Management-Suite bietet interessante Optionen wie den SERdistiller, der die Erfassung von Dokumenten automatisiert, indem er jedes eingehende Dokument inhaltsbezogen einer Dokumentenklasse zuordnet und auch aus unstrukturierten Daten die relevanten Informationen extrahiert.
Auch Ceyoniq, vormals unter dem Namen CE bekannt, glänzt mit wissensbasierter Funktionalität wie automatischer Extraktion von Begriffen und Analyse von Begriffsbeziehungen. So lässt sich zum Beispiel ermitteln, welche Begriffe häufig im Zusammenhang mit anderen Begriffen vorkommen. Weitere Module der schlicht "Solutions" genannten Ceyoniq-Suite stehen zur Massenerfassung von Formulardaten samt Inhaltsanalyse und Abgleich mit vorhandenen Geschäftsdaten, zur Steuerung dokumentenorientierter Geschäftsprozesse und für das Handling volumenintensiver Report-Daten zur Verfügung.
Der Content Manager von IBM hat eine interessante Serverstruktur: Ein zentraler Library Server verwaltet alle Indizes und fungiert so als zentrale Anlaufstelle für Suchoperationen. Die Dokumente selbst sind auf einem Object Server gelagert; Content Manager unterstützt beliebig viele verteilte Object Server. Für interne Aufgaben wie Storage Management und Web-Publikation nutzt das System andere IBM-Produkte wie den Tivoli Storage Manager und das IBM Enterprise Information Portal.
Das deutsche Unternehmen Saperion mit gleichnamigem Produkt firmierte früher als Win!DMS und betont, dass alle Systemkomponenten "bis hin zur Jukebox-Kontrolle" im eigenen Hause entwickelt wurden. Als einzigartig wird ferner vermerkt, dass der Web-Client nicht nur die Recherche in den Archivbeständen, sondern auch Scannen, den Gebrauch digitaler Signaturen und der künftig geplanten Workflow-Funktionen sowie die komplette Administration des Systems vom Browser aus zulässt.
Der Sharepoint Portal Server 2001 von Microsoft läuft gewissermassen ausser Konkurrenz mit. Das Produkt wurde noch nicht freigegeben, ist aber seit kurzem als praktisch definitive "RC2"-Version vom Web herunterzuladen. Bisher unter dem Codenamen "Tahoe" bekannt, vereint der Sharepoint-Server Document Management samt Review-Workflow mit "Web Discussions" für gleichzeitige Kommentare zu einem Dokument durch mehrere User mit einem Portalserver, der die gemanagten Dokumente auf einer Dashboard Site publiziert.