Digest 1.0: Zusammenfassung ja, aber...
Artikel erschienen in Swiss IT Magazine 2002/35
Es ist ein offenes Geheimnis, dass die Menschheit in der täglichen Informationsflut langsam unterzugehen droht. Zeitungen, Briefe, Mails und Webseiten - für viele Werktätige nähert sich die Tag für Tag zu bewältigende Textmenge schon bedrohlich der Grenze der Belastbarkeit.
Glücklicherweise gibt es aber Strategien, die den Overkill vorläufig verschieben: Während viele nach wie vor nach der klassischen Methode querlesen, üben sich andere in sogenannten Speed-Reading-Techniken. Beides will die jüngste Software "Digest" aus dem deutschen Hause NeuroPower nun überflüssig machen.
Der Name ist Programm: "Digest" bedeutet nichts anderes als "Textzusammenfassung". Und genau das soll Digest machen: Texte, vornehmlich solche auf Internetseiten, analysieren und möglichst treffend zusammenfassen.
Diese Aufgabe ist schon für einen Menschen nicht ganz trivial, wie jeder weiss, der seinerzeit in der Schule Balladen von Friedrich Schiller und Novellen von Thomas Mann auf den Punkt bringen musste. Entsprechend gespannt sind wir auf die Resultate, die Digest automatisch erstellen soll.
Wie der Name der deutschen Herstellerfirma NeuroPower nahelegt, verwenden die Programmierer bei der Entwicklung ihrer Produkte neuartige Technologien aus den Bereichen der Neurolinguistik und der Computerlinguistik. Entsprechend basiert die Inhaltsanalyse denn auch nicht auf der Häufigkeit bestimmter Schlüsselworte, sondern auf einer semantischen Analyse, die die tatsächliche Bedeutung des Textes erfassen will. Die gefundenen Schlüsselworte und die Kurzzusammenfassung sollen auf diese Weise den tatsächlichen Inhalt eines Textes wiedergeben, während unwesentliche Nebeninhalte - etwa Werbebanner, das Navigationssystem und ähnliches - in der Analyse nicht berücksichtigt werden sollen.
Die Oberfläche des Programms ist demgegenüber äusserst simpel: Ein einziges Fenster reicht, um die Zusammenfassung mitsamt Schlüsselwörtern anzuzeigen, und neben den für ein Windows-Programm selbstverständlichen Copy&Paste- und Speichern-Funktionen stehen nur rund ein halbes Dutzend Optionen zur Verfügung: So kann etwa definiert werden, ob nur Schlüsselwörter oder bloss die Zusammenfassung oder beides erstellt werden soll, dazu kommen einige Möglichkeiten der Resultat-Formatierung.
Ergänzt wird das Programm durch eine editierbare Stopp-Wort-Liste. Als Stopp-Wörter werden Artikel wie "der" oder Füllwörter wie "und" oder "gleichwohl" bezeichnet, die für die Zusammenfassung unwesentlich sind und entsprechend nicht berücksichtigt werden.
Nach der Installation präsentiert sich Digest insbesondere als neuer Button im Internet Explorer. Ein Klick darauf reicht, um das Tool und damit die Zusammenfassung der aktuell angezeigten Internetseite zu starten. Optionen lassen sich dabei keine einstellen.
Falls man auf die erweiterte Programmfunktionalität zurückgreifen will, startet man das Tool über den Startbutton und kopiert den zusammenzufassenden Text ins Hauptfenster von Digest. Auf diese Weise lässt sich etwa definieren, ob die Zusammenfassung satzweise oder in Prozent des Gesamttextes ausgeführt werden soll.
Digest analysiert aber nicht nur Webseiten, sondern kann auch mit Word- und anderen Textdokumenten umgehen. Allerdings müssen diese ebenfalls per Copy&Paste ins Programmfenster kopiert werden.
Digest erkennt automatisch die Sprache des Dokuments, ist dabei aber auch in der Lage, mehrsprachige Texte zusammenzufassen. Unterstützt werden dabei neben Deutsch in alter und neuer Rechtschreibung insbesondere Englisch und Russisch.
Für unseren Test haben wir Digest verschiedene Quellen zusammenfassen lassen, darunter die Digest-Homepage des Herstellers NeuroPower, einen Online-Artikel der Weltwoche sowie das Märchen "Schneewittchen" der Gebrüder Grimm, das im Projekt Gutenberg zu finden ist.
Dabei zeigte sich auf den ersten Blick, dass Digest kaum hält, was der Hersteller verspricht: Selbst in sehr kurzen Zusammenfassungen von nur 10 Prozent des Gesamtdokuments tauchen in allen Fällen textfremde Elemente wie beispielsweise Navigationsstrukturen der Site auf, im Fall des Weltwoche-Artikels zusätzlich noch Teile des Online-Forums. Bloss Werbung wurde in allen Versuchen zuverlässig ausgeblendet.
Besonders krass fällt das Resultat bei der Online-Analyse von "Schneewittchen" aus: Zu den Schlüsselwörtern zählt Digest unter anderem die HTML-Bezeichnungen uuml und ouml für die Umlaute ü und ö, und die Zusammenfassung (10 Prozent des gesamten Dokuments) besteht zu mehr als der Hälfte aus der Auflistung der kompletten Autoren-Auswahlbox. Die Zusammenfassung selber besteht aus insgesamt 15 Textstellen, wovon sieben "Spieglein, Spieglein an der Wand" lauten. Eine brauchbare Zusammenfassung mit der Digest-Grösse 10 war auch bei der satzweisen Analyse nicht zu erhalten, und auch die Copy&Paste-Analyse-Methode verbesserte das Resultat nicht.
In unserem Test führte erst das Ausprobieren zahlreicher verschiedener Einstellungen zu einigermassen brauchbaren Zusammenfassungen. Die Einstellungen waren aber jeweils nur für das aktuelle Dokument gültig und liessen sich nicht auf andere Texte übertragen. Die dafür benötigte Zeit hätte durchaus auch gereicht, um den Text gleich selber zu lesen.
Insgesamt vermochte Digest im Test nicht zu überzeugen: Der Ansatz des Programms ist zwar vielversprechend, die praktische Umsetzung funktioniert aber noch nicht wunschgemäss.