Vom Misthaufen zur Perlensammlung

Das WWW soll «intelligenter» werden. Zahlreiche Wissenschaftler arbeiten deshalb hart am Semantic Web.

Artikel erschienen in Swiss IT Magazine 2005/10

«Das Internet ist ein riesiger Misthaufen, der einige Perlen enthält.» Das Urteil des Computerpioniers und Philosophen Joseph Weizenbaum mag provokativ klingen. Es ist aber treffender, als es viele Web-Enthusiasten wahrhaben wollen. Denn Weizenbaum weiss sehr wohl, wovon er spricht. Berühmtheit erlangte der studierte Mathematiker und Informatiker in den sechziger Jahren mit seiner Sprachanalysesoftware ELIZA, einem Computerprogramm für die Untersuchung der Kommunikation zwischen Mensch und Maschine in natürlicher Sprache. Ganz ähnlich versuchen die Forscher, die am sogenannten Semantic Web arbeiten, die Kommunikation zwischen Mensch und Maschine, vor allem aber diejenige zwischen Maschine und Maschine zu verbessern.

Während Weizenbaum durch seine Erfahrungen im Umfeld des ELIZA-Projekts frühzeitig zum Computer- und Gesellschaftskritiker wurde – «Wir haben die Illusion, uns stehe das gesamte Wissen der Menschheit zur Verfügung» –, glauben die Wissenschaftler, die an der Entwicklung des Semantic Web arbeiten, dass sich der Weizenbaumsche Misthaufen dereinst so strukturieren lässt, dass die darin verborgenen Perlen tatsächlich auf Anhieb gefunden werden können. Oder noch optimistischer: dass der Misthaufen kein Misthaufen mehr sein wird, sondern eben ein semantisch klar geordnetes Gefüge, das als echter Wissensschatz global genutzt werden kann.

Und wieder Berners-Lee

Die ersten Vorschläge für den Aufbau des Semantic Web formulierte Tim Berners-Lee, der Erfinder des World Wide Web, bereits in den neunziger Jahren des vergangenen Jahrhunderts. Ihm ist offenbar schnell klar geworden, dass das aus HTML-Dokumenten bestehende Internet erstens schnell ins Unermessliche wachsen und zweitens – weil HTML den Maschinen keine brauchbaren Angaben über den Inhalt der Dokumente liefert – extrem unübersichtlich werden würde. Er entwickelte deshalb ein Konzept, das es erlauben soll, ins bestehende Internet eine zusätzliche semantische Schicht einzuziehen.

Im Endeffekt sollen damit Computer in die Lage versetzt werden, die Inhalte von Dokumenten zu entziffern und zueinander in Beziehung zu setzen. Dadurch wäre es einem Internetbenutzer theoretisch möglich, in natürlicher Sprache eine gezielte Frage einzugeben und eine detaillierte Antwort zu erhalten – statt eine ellenlange Liste von Websites, wie es heute bei einer Google-Suche der Fall ist.

Berners-Lee betont aber, dass sein Ansatz nichts mit einer «magischen» künstlichen Intelligenz zu tun habe, die es Maschinen erlauben würde, menschliche Äusserungen «zu verstehen». Das Konzept von für Rechner verständlichen Dokumenten ziele bloss darauf ab, dass «eine Maschine fähig sein soll, ein klar definiertes Problem zu lösen, indem sie mit Hilfe von klar definierten Daten klar definierte Aufgaben erledigt». Es geht laut Berners-Lee also nicht darum, dass Computer die menschliche Sprache verstehen müssen, sondern darum, dass die Menschen – sprich die Semantic-Web-Entwickler – den Zusatzaufwand leisten müssen, damit die Maschinen untereinander «sinnvoll» kommunizieren können.
Wem dies angesichts der gegenwärtigen Webservices-Debatte, die im Jahr 2000 vor allem von Microsoft mit der .NET-Architektur angestossen wurde, bekannt vorkommt, liegt nicht ganz falsch. In der Tat ist die eXtensible Markup Language (XML), auf der die Webservices fussen, eine Erweiterung von HTML. Mit XML lassen sich beliebige Typen, sogenannte Tags, definieren, mit denen Dokumente markiert werden können.

Darauf aufbauend hat das World Wide Web Consortium (W3C) am Anfang des neuen Jahrtausends und als Folge der Vorschläge von Berners-Lee das sogenannte RDF (Resource Description Framework) entwickelt. Es bietet den Vorteil, dass sich damit Beziehungen zwischen URIs (Uniform Resource Identifier) definieren lassen. Jeder URI bezeichnet eindeutig eine Ressource oder ein Objekt im Internet, sei dies eine E-Mail-Adresse, eine Website (URL) oder einen Pfad zu einer Website. Im RDF lassen sich nun mittels sogenannter Triples URIs und Zeichenketten miteinander zu Aussagen verknüpfen. Allerdings legt das RDF nur die Syntax für das Semantic Web fest. Dennoch stellt es die unverzichtbare Grundlage für die «sinnvolle» Verknüpfung von Bedeutungsträgern dar.

Welten schaffen mit Ontologien

Damit eine solche Verknüpfung überhaupt zustandekommen kann, ist eine sogenannte Ontologie vonnöten – oder besser gesagt ein Mechanismus, der es erlaubt, Ontologien zu definieren und zusammenzustellen. Ontologie bedeutet in der Philosophie «Lehre vom Sein» und bezeichnet im Rahmen des Semantic Web die Notwendigkeit, nicht nur Dinge oder Wörter zu definieren, aus denen eine «Welt» besteht, sondern auch deren Eigenschaften festzulegen – also eine schlüssige Metadaten-Hierarchie zu kreieren. Die Architekten des Semantic Web – angefangen bei Berners-Lee – sind immer davon ausgegangen, dass es unmöglich ist, quasi auf einen Schlag eine umfassende Ontologie für alle «Dinge» im WWW-Universum zu liefern. Vielmehr sollen immer mehr unterschiedliche und themenspezifische Ontologien entstehen, die so nach und nach Ordnung im «Misthaufen» schaffen.

Zu diesem Zweck hat eine Arbeitsgruppe des W3C die sogenannte OWL Web Ontology Language entwickelt und 2004 als offiziell empfohlenen Standard ausgerufen. Zusammen mit dem RDF ist es damit nun möglich, Bedeutungsträger innerhalb eines Themengebiets so zu kennzeichnen, dass sie auch für Maschinen, sprich Software, «verständlich» sind.
Das ist in etwa der gegenwärtige Stand der Dinge. Im Hinblick auf ein «echtes» Semantic Web, in dem Rechner aufgrund einer Anfrage eigenständig aufeinander zugreifen, sich «verstehen», Irrelevantes ausscheiden und dem Benutzer exakt die gesuchte Antwort liefern, ist dies allerdings nur der Anfang. Denn noch fehlen übergeordnete Regeln, die wiederum Ontologien überprüfen und verknüpfen könnten. Ausserdem muss ein Mechanismus geschaffen werden, der in einem hohen Grad gewährleistet, dass den Informationen, die das Semantic Web liefert, auch Glauben geschenkt werden kann. In Gestalt der Sicherheitsproblematik und des Datenschutzes schliesslich wartet auf die Wissenschaftler ein weiterer harter Brocken.

Das Semantic Web: Von der Erarbeitungen von Ontologien bis zur Vertifizierung gibt es noch viel zu tun

Uni Zürich mischt mit

Den Herausforderungen, die das ambitionierte Konzept des Semantic Web bereithält, stellen sich weltweit diverse Forschungsinstitute und Gemeinschaftsprojekte. So hat die Europäische Union vor rund einem Jahr im Rahmen ihres sechsten Rahmenprogramms für Forschung REWERSE ins Leben gerufen. Das Kürzel steht für «REasoning on the WEb with Rules and SEmantics» und wird von der EU mit fünf Millionen Euro unterstützt. Rund 100 Wissenschaftler und Forscher aus 27 Einrichtungen, darunter auch das Institut für Informatik der Universität Zürich, haben sich das Ziel gesetzt, Regelsprachen für das Semantic Web zu entwickeln und diese in Beispielszenarien zu erproben.
Die diversen REWERSE-Arbeitsgruppen widmen sich dabei unterschiedlichen Spezialaufgaben. Dazu zählen beispielsweise die Integration von logischen Schlussfähigkeiten in Webabfragen, die Entwicklung von Wiederverwendungstechniken für Webservices, Ontologie-Komponenten und Ontologie-Sprachen sowie den Aufbau eines Semantic Web speziell für die Bioinformatik.
Die Ergebnisse und Prototypen von REWERSE sollen dereinst als «Bausteine» für die kommerzielle Nutzung des Semantic Web der Zukunft verwendet werden können – und mithelfen, den Weizenbaumschen Misthaufen zu entsorgen.

Artikel kommentieren