Quo vadis, Enterprise Search?
Artikel erschienen in Swiss IT Magazine 2008/10
Das Suchen und Finden von Informationen ist zu einem wichtigen Bestandteil unseres Alltags geworden. Speziell geschäftliche Entscheidungen werden heute zunehmend aufgrund einer Vielzahl von meist elektronisch verfügbaren Informationen gefällt, welche möglichst aktuell, vollständig und akkurat sein sollten. Dabei kommt der laufend wachsenden Datenmenge, die sich nach wie vor alle zwei bis drei Jahre verdoppelt, eine enorme Bedeutung zu.
Diese Informationen wollen erschlossen und für zeitkritische Entscheidungen verfügbar gemacht werden. Im Umfeld von Unternehmen haben sich hierzu die Bezeichnungen «Information Access» und «Enterprise Search» (ES) etabliert. Beide Begriffe bezeichnen Lösungen, die dem autorisierten Benutzer über den Mechanismus der Suche Zugang zu allen jeweils prozessrelevanten Informationen ermöglichen. Es geht somit nicht um das eher profane Suchen (Search), sondern vielmehr um das gezielte Finden von Informationen (Information Retrieval). Enterprise-Search-Produkte zeichnen sich speziell dadurch aus, dass sie in der Lage sind, Inhalte aus ganz unterschiedlichen Systemen – vom einfachen Intranet über berechtigungsgeschützte Filesysteme bis hin zu komplexen Enterprise-Content-Management-Systemen (ECM) – unabhängig vom jeweiligen Datenformat zu erschliessen.
Enterprise-Search-Systeme verfügen über:
- Technologien, um Dokumente zu verarbeiten, deren Inhalt zu indexieren und den Index für die Benutzer durchsuchbar zu machen.
- Administrationsfunktionen, um die Indexierung zu steuern (was wird indexiert, was nicht, welche Indices werden gebildet, wann werden sie aufgefrischt?), oder um die Relevanzkriterien des Ranking anzupassen.
- Log-Funktionalität, um Benutzerinteraktionen aufzuzeichnen und die verwendeten Queries und Suchbegriffe auszuwerten. Dies ermöglicht unter anderem auch das Fine-Tuning eines ES-Systems.
Der Vorverarbeitung von Dokumenten vor einer Indexierung kommt eine wichtige Aufgabe zu. In diesem Schritt können Informationen angereichert (z.B. durch Kombination aus mehreren Quellen) oder aber kondensiert werden (z.B. durch Filtern von Navigationselementen in HTML-Seiten). Dies ermöglicht es, die Qualität der Informationen zu erhöhen, um später bei der Suche bessere Treffer zu erzielen. Moderne ES-Systeme verfügen hierzu über sogenannte «Pipelines», die diese Verarbeitung steuern.
Weitere wichtige Funktionen, die heute in unterschiedlicher Ausprägung in jedem ES-Produkt enthalten sind oder aber zumindest als kostenpflichtige Zusatzmodule genutzt werden können:
- Klassifikation und Taxonomien: Für viele Branchen existieren heute umfangreiche Taxonomien (Begriffs-Hierarchien). ES-Systeme versuchen deshalb, Dokumente automatisch Begriffen aus der zur Verfügung stehenden Taxonomie zuzuordnen. Dies ist eine häufig verwendete Alternative zur manuellen Klassifikation, die aufwendig und teuer ist.
- Resultate Clustering: Hierbei werden die Resultate in thematischen Foldern gruppiert. Dies ermöglicht eine einfachere Übersicht über die vorhandenen Topics innerhalb der Suchresultate und erleichtert damit das Navigieren insbesondere in einer umfangreichen Treffermenge. Die Cluster werden abhängig von der zum Einsatz gelangenden Technologie dynamisch (mittels linguistischer Verfahren) oder aber statisch (basierend auf vorhandenen Metadaten) erstellt.
- NLP: Natural Language Processing (NLP) bezeichnet Verfahren, die es einer Suchmaschine ermöglichen soll, den Inhalt von Dokumenten, aber auch die Such-Queries zu «verstehen» – keine leichte Aufgabe bei einem durchschnittlichen Query-Umfang von 2,5 Wörtern. Dabei geht es darum, Entitäten wie Produktbezeichnungen, Namen von Städten, Adressen etc. zu erkennen und diese für die Suche oder für die Navigation innerhalb von Suchresultaten verfügbar zu machen. Die Verfahren werden des weiteren dazu verwendet, automatisch Abstracts (Kurzzusammenfassungen von Dokumenten) zu generieren. Oft werden hierzu linguistische und/oder semantische Verfahren angewendet.
- Rechte-Management: Ein ganz wichtiges Merkmal, das ES auszeichnet, ist die Integration und Berücksichtigung von Benutzerrechten (ACLs). Mitarbeiter dürfen über die Suchfunktion nur diejenigen Informationen zu sehen bekommen, für die sie zugriffsberechtigt sind. Dabei wird unterschieden zwischen sogenanntem Early und Late Binding. Beim Early Binding werden die ACLs zusammen mit dem Content indexiert, Late Binding bedeutet, dass die Inhalte erst beim Aufbau der Resultatsliste einzeln überprüft werden. Early Binding ist demzufolge etwas weniger «aktuell», spart dafür Ressourcen und Netzwerkbandbreite. Häufig kommt in der Praxis eine Kombination beider Verfahren zur Anwendung.
- Metasuche: Die Metasuch-Funktion ermöglicht es, Suchresultate von anderen Suchsystemen zu konsolidieren und in Kombination mit Resultaten aus der eigenen Suchmaschine darzustellen. Somit können beispielsweise lokale Suchresultate mit solchen aus MSN Search in ein und derselben Resultateliste dargestellt werden. Eine Herausforderung stellt dabei das Ranking dar, denn üblicherweise verwenden unterschiedliche Suchtechnologien auch unterschiedliche Scores. Der gleiche Treffer kann im Suchsystem A mit 72 Prozent bewertet sein und im System B mit 5,37 Prozent, was die Normalisierung der Treffer schwierig macht.
Viele Unternehmen haben in den letzten Jahren Enterprise-Search-Projekte realisiert. Nach einer anfänglichen Euphorie stellte sich aber bald auch eine gewisse Ernüchterung ein. Aktuelle Umfragen in Unternehmen zeigen, dass heute an die 60 Prozent der User mit den firmeninternen Suchsystemen unzufrieden sind, Tendenz steigend. Die Ursachen dafür sind vielfältig:
- unvollständig ermittelte Anforderungen
Die technischen Mängel aktueller Enterprise-Search-Produkte bieten einigen Spielraum für Verbesserungen. Im Trend liegen Ansätze, die sich mit dem Benutzer-Interface befassen und beispielsweise durch die Kombination von Text und Grafik Suchresultate intuitiv bedienbar machen.
Eine Herausforderung heutiger Suchlösungen ist, dass nach wie vor jedes Dokument der Trefferliste einzeln geöffnet werden muss, um zu sehen, ob dieses wirklich die gesuchte Information enthält. Hier bieten intelligente Preview-Funktionen, wie sie beispielsweise in BA-Insight’s Longitude implementiert wurden, eine innovative Lösung an.
Web 2.0 macht auch vor Enterprise Search nicht halt. Viele sehen in der Kombination von ES und Techniken wie Tagging, Rating, Voting und Annotieren einen Weg, Knowledge-Management-Themen sinnvoll anzugehen. Endlich ist es möglich, Informationen gezielt anzureichern, Dokumente, Themen und Personen in Mash-ups zu verknüpfen, um so Wissen und Wissensträger auf einfache Art und Weise nutzbar zu machen.
Social Search ermöglicht es, Wissensnetzwerke ohne grossen Aufwand aufzubauen und zu nutzen. Dabei profitieren diese Systeme von der Tatsache, dass sich Tagging, Social Bookmarking etc. im Internet bereits gut etabliert haben (digg.com, del.icio.us etc.). Das war nicht immer so. Wer erinnert sich nicht an die immer wiederkehrende Frage am Ende von Knowledge-Base-Einträgen: «Was this information useful?» Nur wenige User haben in der Vergangenheit allerdings von dieser Möglichkeit zur Willensäusserung Gebrauch gemacht. Ähnlich verhielt es sich mit den sogenannten «Community Engines» Anfang dieses Jahrhunderts, welche auf aktive Partizipation der Nutzer setzten, um die Qualität der Inhalte zu erhöhen.
Auch weitergehenden Lösungen wie etwa Social Network Analysis, eine Technik mit der kontextspezifische Verbindungen zwischen Personen über die von ihnen bearbeiteten Dokumente respektive die darin behandelten Themen sichtbar gemacht werden können, waren zumindest in Europa kein Erfolg beschieden. Zu gross war die Skepsis gegenüber solchen Systemen, die – bei entsprechender Anwendung – ebenso den gläsernen Mitarbeiter ermöglichten.
Für den Erfolg von Techniken wie Tagging ist es wichtig, dass diese mit möglichst wenig Benutzeraufwand verbunden sind. Die durch solche Methoden verbesserte Relevanz von Suchresultaten muss in einem sinnvollen Verhältnis zum Aufwand stehen, der zur Anreicherung von Informationen anfällt. Ist dies der Fall, kann ein enormer Mehrwert für Unternehmen und Mitarbeiter geschaffen werden. Gartner prognostiziert denn auch, dass in fünf Jahren über 75 Prozent aller Suchmaschinen Social- Search-Elemente für eine erhöhte Relevanz einsetzen werden.
Dem globalen Trend folgend suchen Firmen in Zeiten beschränkter Budgets und in durch Übernahmen verunsicherten Märkten immer öfter nach Open-Source-Lösungen. Bestätigt durch den Erfolg in verwandten Themenbereichen wie ECM (Alfresco), SOA (SOPERA) oder Messaging (Zimbra), stellt sich dabei die Frage, ob Open Source auch im ES-Umfeld möglich ist.
Technisch gesehen sind heute viele Elemente, die eine ES-Lösung ausmachen, in der einen oder anderen Form im Internet verfügbar. Vollständige Angebote, die sich in Qualität und Funktionsumfang mit kommerziellen Produkten messen können, existieren allerdings nicht. Vielmehr handelt es sich in der Regel um Frameworks oder Libraries, die es Programmierern ermöglichen, Suchfunktionen in bestehende Applikationen zu integrieren. Die wohl beliebteste freie Library ist Lucene aus dem Apache-Projekt, die eine Google ähnliche Suchsyntax verwendet und Feldsuche unterstützt. Die Lucene-Technologie hat sich in vielen Projekten bewährt und profitiert von einer gut etablierten, aktiven Community. Solr, ein Subprojekt von Lucene, ist darüber hinaus ein vollständiger Suchserver, der zusätzlich auch Faceted Search unterstützt.
Ein Blick in die Lucene-basierten kommerziellen Produkte zeigt, dass sich damit grundsätzlich für viele Anwendungsfälle passende Lösungen realisieren lassen. Oft verfügen diese Produkte allerdings nur über wenige Konnektoren: Websites, Filesysteme und Datenbanken lassen sich damit zwar meist problemlos erschliessen, bei in Unternehmen häufig vorkommenden MS-Sharepoint-Servern, E-Mail-Systemen etc. sowie hinsichtlich der so wichtigen Berechtigungs-thematik (ACLs) sieht es aber meist weniger gut aus. Einige etablierte Hersteller bieten daher im Funktionsumfang reduzierte freie Versionen wie die IBM Omnifind Yahoo Edition an, die den Einstieg erleichtern und als funktionale Basis für einen späteren Ausbau dienen.
Weitere interessante Projekte, die sich mit dem Thema Open Source Search befassen, sind: OpenPipeline (www.openpipeline.org), eine Open-Source-Initiative von Dieselpoint, sowie das Eclipse-EILF-Project
(www.eclipse.org/proposals/eilf). EILF beabsichtigt, Basisfunktionalitäten, die von Enterprise Search benötigt werden, für jedermann frei verfügbar zu machen. Ebenfalls zu erwähnen ist NeOn (www.neon-project.org), ein Projekt, das sich mit Ontologien für semantische Applikationen befasst und von der EU gefördert wird. An NLP Interessierte informieren sich unter www.opennlp.org, und wenn es um Metadaten-Extraktion geht, ist aperture.sourceforge.net ein guter Start. Diese Projekte/Frameworks befinden sich vielfach zwar noch in einer frühen Entwicklungsphase; trotzdem ist in den kommenden 1–2 Jahren mit einigen interessanten Produkten zu rechnen, die dem einen oder anderen etablierten Hersteller durchaus Kopfzerbrechen bereiten könnten.
Ob man sich für ein bewährtes, kommerzielles Produkt entscheidet oder auf Open Source setzt, entscheidet letztlich die konkret benötigte Funktionalität und Methodik. Der Enterprise-Search-Markt befindet sich derzeit in einem fundamentalen Umbruch, in dem trotz – oder gerade wegen – der anhaltenden Konsolidierungstendenzen immer wieder neue, innovative Firmen auf den Markt drängen und sich darin erfolgreich behaupten können. Es bleibt deshalb mit Sicherheit spannend!
Marcel Wyser ist Geschäftsführer der eVantage GmbH. Sie erreichen ihn unter marcel.wyser@evantage.ch