Suchen heisst nicht immer finden
Artikel erschienen in Swiss IT Magazine 2006/16
Fast die Hälfte ihrer Arbeitsstunden, so eine IDC-Studie, verbringen «Information Workers» mit dem Suchen der benötigten Informationen und der Analyse der Suchresultate. Für die eigentliche Arbeit bleibt also nur die halbe Arbeitszeit übrig. Mit ein Grund für den enormen Suchaufwand ist das Missverhältnis zwischen der riesigen Anzahl an Resultaten, die eine typische Volltextsuche im Stil der Internet-Suchmaschinen liefert, und der Relevanz der Ergebnisse. Man kennt es von Google und Kon-sorten die meisten gefundenen Webseiten enthalten nicht das, was man eigentlich finden wollte.
Die Pionierprodukte für die Informationssuche in den unternehmensinternen Datenbeständen, allen voran die Suchmaschine von Verity, setzten Ende der neunziger Jahre trotzdem auf ähnliche Methoden wie die Internetsuchdienste. Bessere Technologien gab es nicht. Die Hauptmerkmale der ersten Enterprise Search Engines sind auch heute noch die unabdingbarsten Elemente der unternehmensweiten Suche:
++ Breite Abdeckung von Datenquellen: Fileserver mit Dateien in den unterschiedlichsten Formaten, Messaging-Server mit halbstrukturierten Daten, Business-Anwendungen, die im allgemeinen auf Datenbanken basieren und Intranet-Websites.
Braucht es überhaupt eine unternehmensweite Suchfunktion? Die Hersteller sind sich über die Unabdingbarkeit ihrer Produkte naturgemäss einig. In der Praxis genügen jedoch vor allem in kleineren Umgebungen die integrierten Suchfunktionen der einzelnen Anwendungen durchaus, allenfalls ergänzt durch eine netzwerkfähige Volltextsuchmaschine für Dateien, wie sie zum Beispiel Microsofts Sharepoint-Portalserver oder die Schweizer Search-Lösungen Svizzer und Infonoia bieten. Für die tägliche Arbeit benötigt man nämlich die neuesten Informationen am häufigsten und hier weiss der einzelne KMU-Mitarbeiter im allgemeinen ziemlich genau, ob das Gewünschte als E-Mail, im CRM-System oder auf dem Fileserver zu finden ist.
Im wahrsten Sinn kontraproduktiv sind Suchplattformen, die zu viele Ergebnisse völlig ungeordnet in einer Liste im Google-Stil liefern. Genau dann fällt nämlich der enorme Zeitaufwand für die Analyse der Resultate an, der in der IDC-Studie bemängelt wird.
Gerade in Zeiten, wo gesetzliche Vorschriften zunehmend die Archivierung praktisch aller jemals erstellten Dokumente vom Instant Message bis zum Rahmenvertrag fordern, sind längst nicht alle vorhandenen und damit auch auffindbaren Informationen zu einem Suchbegriff wertvoll. Mit dem vielbeschworenen Knowledge Management habe eine simple unternehmensweite Suchfunktion nichts zu tun, meint David Forbes, CEO eines Herstellers von Prozessmanagement-Software, und gibt auch gleich einen Grund an: Die klassische Suche stammt aus der Web-Welt und funktioniert referentiell. Sie versammelt eine Unzahl unzusammenhängender Informatiönchen, kategorisiert sie und macht sie im Idealfall auch noch gut navigierbar. Unternehmen, so Forbes, seien dagegen transaktionsorientiert; Informationen sind nur im Zusammenhang mit Geschäftsprozessen relevant: «Search ist einfach, Unternehmen sind es nicht.»
Ganz so schwarzweiss wie Forbes sollte man es denn doch nicht sehen. Neuere Enterprise-Search-Lösungen präsentieren die Resultate anschaulicher als die typische Internetsuchmaschine – sie zeigen zum Beispiel zu jedem gefundenen Dokument Titel, Autor, weitere beteiligte Personen, Kurzzusammenfassung und andere Meta-Informationen an. Je nach Herkunft sind solche Angaben entweder schon in den Originaldaten enthalten, werden beim Erstellen dem Dokument manuell hinzugefügt oder beim Indexieren automatisch generiert. Ein E-Mail zum Beispiel enthält von Haus aus Angaben zu Absender, Empfänger, Betreffzeile und Versanddatum. Die automatische Extraktion von Metadaten wird durch das Aufkommen von branchen- und themenspezifischen XML-Dialekten in immer mehr Business-Anwendungen erleichtert. Selbst Office-Dokumente werden heute im XML-Format abgelegt, so dass sich Textelemente wie Titel, Zwischentitel und Fussnoten von den Indexierungsalgorithmen sehr leicht identifizieren lassen. Spezialisierte XML-Datenbanken wie der XML Content Server von Mark Logic mit seiner eigenen XML-Abfragesprache xQuery vereinfachen der Suchsoftware die Arbeit zusätzlich. Die Technologie ist hier auf gutem Weg.
Eine weitere und für fortgeschrittene Suchplattformen unabdingbare Möglichkeit, der Resultateflut Herr zu werden, ist die systematische Klassifizierung der Dokumente anhand eines Begriffskatalogs, auch Taxonomie genannt. Sauber kategorisiert lassen sich die Suchergebnisse verständlicher präsentieren. Ausserdem werden durch die Anzeige der Kategorien oft Informationen aufgedeckt, nach denen ursprünglich vielleicht gar nicht gesucht wurde, die aber für die aktuelle Problemstellung ebenfalls relevant sind.
Die Einteilung kann ganz einfach (nach Kunden, nach Monat...), hierarchisch mit verschachtelten Begriffsstrukturen oder noch komplexer mit mehreren gleichberechtigten Kategorieräumen und konzeptuellen Zusammenfassungen innerhalb eines Oberbegriffs aufgebaut werden. An diesem Punkt trifft sich die Funktionalität von Suchmaschinen und Dokumentenmanagement-Systemen.
Der Aufbau und noch mehr die konsequente Einhaltung einer Taxonomie ist allerdings kein trivialer Vorgang. Es ist illusorisch, vom Autor jedes Dokuments eine korrekte Verschlagwortung zu erwarten. Die Anstellung eines geschulten Spezialisten zur zentralisierten Verwaltung von Index und Metadaten ist kostspielig. Eine Variante ist die «Volksonomie»: Die Kategorisierung erfolgt nicht durch einen einzelnen Mitarbeiter, sondern durch die gesamte dazu berechtigte Anwendergemeinschaft. Auf diese Weise ergeben sich mit wenig Aufwand zwar weniger stringente, aber durchaus brauchbare Metadaten. Die Idee stammt von Internetdiensten wie flickr, wo für die Kategorisierung der Fotos die User-Community zum Einsatz kommt.
Taxonomien können auch per Software erstellt werden. Praktisch alle Suchplattformen für den unternehmensweiten Einsatz bieten eine oder mehrere Formen der automatischen Klassifizierung, entweder bereits bei der Indexerstellung oder on-the-fly beim Auf-bereiten der Suchresultate. Dabei kommen diverse bewährte und einige noch recht experimentelle Textanalysetechniken zum Einsatz:
++ Clustering: Die Resultate werden nach dem Suchvorgang ad hoc analysiert und thematisch passend zusammengefasst. Bei einer Suche nach Bäumen würden die Resultate beispielsweise in Nadelbäume und Laubbäume gruppiert, auch wenn die Dokumente nicht bereits bei der Indexierung analysiert und mit entsprechenden Metatags ergänzt wurden. Neben kompletten Suchplattformen mit integriertem Clustering, zum Beispiel von Inxight und Siderean, sind bei Engenium und Vivisimo auch spezialisierte Clustering-Tools erhältlich.
++ Entity Extraction: Bei der Indexierung werden die Dokumente auf Eigennamen, Marken und andere fixe Bezeichnungen analysiert und die entsprechenden Metatags ein-gefügt. Führende Entity-Extraction-Anbieter sind Inxight und ClearForest; die Technologie ist in Lizenz bei den Search-Plattformen verschiedener anderer Anbieter im Einsatz.
++ Sentiment Extraction: Der neueste Suchtechnologie-Trend. Software von Nstein, Fast und anderen Anbietern analysiert die Suchresultate auf positive oder negative Meinungen. So lassen sich zum Beispiel Testberichte finden, die sich kritisch zu einem bestimmten Produkt äusssern. IBM hat die Technologie von Nstein in eine Variante seiner Omifind-Suchplattform integriert, wo sie eine Funktion namens «reputation monitoring» unterstützt, mit der ein Unternehmen anhand durchsuchter Zeitungsartikel, Website-Kommentare und anderer Quellen sein öffentliches Image im Auge behalten kann.
++ Concept Search: Einzelbegriffe werden per Sprachanalyse (natural language analysis) in ihrem Kontext betrachtet, um die Suchresultate sinnvoll zu gruppieren. Ein Beispiel: Die Suche nach «Schloss» präsentiert auf einer Plattform mit Concept-Search-Funktionalität die Resultate «Neuschwanstein» und «Kaba» in verschiedenen Untergruppen. Concept Search gibt es unter anderem bei Autonomy und Engenium.
Für eine «automatisierte Suche total» braucht es also mehr als eine Technologie. Keine der aktuell erhältlichen Search-Plattformen kombiniert sämtliche Möglichkeiten in einem Paket. Mit der Unstructured Information Management Architecture UIMA will IBM dem Problem der bisher geringen Standardisierung begegnen. Es handelt sich um ein XML-Framework, das als eine Art Backbone dient, in das sich mehrere Taxonomie- und Textanalysetools als Plug-ins einklinken können. IBM hat die Spezifikation freigegeben, sie steht auf Sourceforge zum Download bereit. Ob sich UIMA als universeller Standard durchsetzt, ist zwar noch nicht klar. Immerhin haben sich aber über ein Dutzend Hersteller bereiterklärt, ihre Produkte künftig UIMA-konform weiterzuentwickeln, darunter neben Inxight, Siderean, Endeca und Nstein auch der Business-Intelligence-Hersteller Cognos. In den USA ist UIMA ausserdem bei zwei namhaften Grosskliniken und bei der militärischen Verwaltungsabteilung DARPA bereits im praktischen Einsatz.
Unsere Marktübersicht umfasst 39 Lösungen von 22 Herstellern. Die Bandbreite reicht von relativ simplen netzwerkweiten Volltextsuchmaschinen bis zu High-end-Plattformen mit automatischer Inhaltserkennung und Kategorisierung. Dazu kommen mit G10, Google und Thunderstone drei Hersteller von «Search Appliances»: Durch ein eng integriertes und in sich abgestimmtes Paket mit Software und Hardware soll die Suchleistung deutlich gesteigert werden. Punkto Klassifizierung dagegen sind die Appliances aber eher schwachbrüstig. Einige Hersteller liefern zu ihren serverbasierten Suchplattformen passende Client-Software, die wir ebenfalls in die Übersicht aufgenommen haben. Bei den übrigen Lösungen erfolgt der Zugriff ausschliesslich browserbasiert. Einige charakteristische Hersteller im Überblick:
++ Autonomy gilt spätestens seit der Übernahme des Search-Pioniers Verity im letzten Jahr als Enterprise-Search-Marktführer. Die Plattform bietet umfassende Funktionalität für alle denkbaren Aspekte der unternehmensweiten Suche. Mit der Integration der Verity-Plattform K2, zukunftsorientierten Projekten in Richtung Call-Center-Lösungen, Security und Überwachung hat sich die Firma allerdings ein recht umfangreiches Aufgabengebiet vorgenommen.
++ Fast deckt mit der fünften Ausgabe seiner Enterprise Search Platform ebenfalls jeden Suchbedarf ab und konnte sich bei zahlreichen Grossunternehmen als Standard-Suchplattform etablieren. Mit Features wie Sentiment Extraction ist Fast auch bei den neuesten Trends an vorderster Front dabei.
++ Endeca steht von der Bekanntheit her ein wenig im Schatten von Autonomy und Fast, hat aber ein gutes Produkt im Köcher, das jedoch mehr als Suchmaschine für kommerzielle Websites genutzt wird als für die unternehmensinterne Suche.
++ IBM und Oracle sind Beispiele eines Trends: Infrastrukturanbieter offerieren zunehmend auch eigene Search-Produkte, teilweise von anderen Herstellern eingekauft, teilweise selbst entwickelt.
++ Microsoft bietet aktuell zwar sowohl eine Desktop-Suchapplikation für Windows XP als auch einen Intranet-Suchdienst im Rahmen des Sharepoint-Portalservers 2003 an. Die Sharepoint-Suchfunktionen sind allerdings nicht sehr umfangreich, so dass diverse Hersteller ergänzende oder alternative Search-Produkte für die Microsoft-Plattform anbieten, so zum Beispiel Coveo und Mondosoft.
Die Search-Zukunft von Microsoft besteht aus dem stark verbesserten Sharepoint Server 2007, der in Windows Vista integrierten und für Windows XP separat erhältlichen Version 3.0 von Windows Desktop Search und dem Windows Live Search Center, einem kostenlosen Search-Client für Windows XP
und Vista, der die Suchresultate von Web, Desktop und Intranet unter einer eleganten, anschaulichen Gemeinschaftsoberfläche kombiniert.
Enterprise-Search-Lösungen von 22 Herstellern