Textrevolution am Zürcher IFI
Artikel erschienen in Swiss IT Magazine 2005/22
Texte wurden in der Informatik bisher stiefmütterlich behandelt. Während für strukturierte Informationen die wunderbarsten Datenbankfunktionen bereitstehen, lagert man Textdokumente im besten Fall in Form einer binären Amöbe ab – im Fachjargon BLOB genannt –, falls sie denn überhaupt innerhalb der Datenbank gehalten werden. Meist findet sich dort bloss ein Verweis, und das eigentliche Dokument ist irgendwo im Filesystem abgelegt. Das gilt für klassische Datenbankapplikationen ebenso wie für die meisten Content-Management-Systeme.
Das Institut für Informatik der Uni Zürich trachtet stattdessen nach Gleichstellung, denn Texte sind in manchen Szenarien mindestens so missionskritisch wie die klassischen Datenbankobjekte und verdienen ein entsprechendes VIP-Treatment. Seit vier Jahren arbeitet der Forschungsbereich Datenbanktechnologie deshalb an einem Projekt namens Tendax – der Name steht für «Text Native Database Extension» und beschreibt anschaulich, worum es geht: Textdokumente sollen vom randständigen Nachgedanken zum eigenen Datentyp werden. Jetzt wurde das Resultat der Anstrengungen, an denen neben Projektleiter Thomas Hodel-Widmer rund 30 Studierende beteiligt waren, offiziell vorgestellt.
Um es kurz zu machen: Ich bin begeistert. Tendax steht nämlich nicht für eine simple Verschlimmbesserung des bisherigen Umgangs mit Dokumenten, sondern verfolgt einen radikal neuartigen Ansatz. In einer Tendax-Umgebung wird jedes einzelne Zeichen eines Dokuments als separates Datenbankobjekt samt zugehörigen Metadaten erfasst – dazu gehören zum Beispiel Autor, Herkunft (zum Beispiel per Copy/Paste eingefügt) und Änderungszeitpunkt. Mehrere Zeichen können zu sogenannten Zonen zusammengefasst werden - zum Beispiel Wörter oder Sätze – die ebenfalls ihre Metadaten erhalten. Damit lässt sich die gesamte Entstehungsgeschichte eines Dokuments jederzeit rekonstruieren – das ist beispielsweise in Compliance-strengen Anwendungen wie im Finanzbereich oder bei der Medikamentenzulassung in der Pharmaindustrie essentiell. Die feine Granulierung der Dokumentenbestandteile ermöglicht überdies, beliebige Bereiche für bestimmte User freizugeben oder eben nicht.
Der Tendax-Editor bietet zudem die Möglichkeit, dass mehrere Autoren simultan an einem Dokument arbeiten, wobei sich die Änderungen eines Autors in Echtzeit bei allen anderen Benutzern widerspiegeln, die gerade online sind. Interessant sind auch die Visualisierungs-Features; so lässt sich der Werdegang eines Zeichens, einer Zone oder eines ganzen Dokuments in einem Data-Lineage-Diagramm grafisch darstellen.
Wenn jede Textmanipulation eine DB-Transaktion nach sich zieht, muss das Datenbanksystem Höchstleistungen bringen. Mit einem herömmlichen RDBMS wäre die Aufgabe nicht lösbar gewesen – Institutsleiter Klaus R. Dittrich meinte, Kollegen hätten den Ansatz darum zu Beginn für wahnwitzig gehalten. Die Tendax-Entwickler haben sich nach eingehenden Performance-Studien für die im breiten Publikum wenig bekannte Engine Caché von Intersystems entschieden und hatten damit Erfolg – das
System funktioniert im Prototyp und kann unter www.tendax.net getestet werden.
Das Projekt verdient auch unter anderen Aspekten Beachtung: Es ist mustergültig für die Zusammenarbeit von Forschung, Lehre und Industrie, hat riesiges Potential für die kommerzielle Umsetzung, fungiert nebenbei als erstes Softwarepatent der Uni Zürich und hat den Steuerzahler laut Professor Dittrich gerade mal 350'000 Franken gekostet, die durch den Lerneffekt für die beteiligten Studierenden sehr gut angelegt sein dürften.