Kenndaten dank Open Source
Artikel erschienen in Swiss IT Magazine 2007/08
Reto Trinkler gibt zu, dass die Open-Source-Suite Pentaho im Vergleich zu kommerziellen Business-Intelligence-Produkten wie Hyperion oder Business Objects noch Lücken aufweist, obwohl die Funktionen ständig erweitert würden. Trinkler ist Geschäftsführer des auf Informationslogistik spezialisierten Berner Softwarehauses Basis06 und hat Pentaho als Projektleiter beim Immobilienmarktplatz ImmoScout 24 implementiert. Im richtigen Kontext eingesetzt, meint er, sei Pentaho ein ausgezeichnetes Produkt.
Das sagt auch Reto Schneider, der das Projekt auf Kundenseite betreute. Die Open-Source-Suite habe ImmoScout24 mehr gebracht, als erwartet und geplant war.
Am Anfang stand die Anfrage von grossen Kunden wie Credit Suisse und dem Immobilien-Beratungsunternehmen Wüest & Partner, ob ihnen ImmoScout24 Daten zum Immobilienmarkt überlassen könne. Die Logfiles des Marktplatzes enthalten aussagekräftige Informationen zu Angebot und Nachfrage. Um jedoch den ganzen Lifecycle einer Immobilie abzubilden, müssen weitere Quellen angezapft werden. Die Bestandesdaten sind beim Statistischen Amt gespeichert, aktuelle Planungsdaten finden sich im Baublatt und der Schweizerischen Bauzeitung. ImmoScout24 stand vor der Aufgabe, diese in unterschiedlichen Sätzen vorliegenden
Daten für die Kunden zu konsolidieren. Gefragt war daher
eine flexible Data-Warehouse-Lösung.
Media Swiss, die an den verschiedenen Scout-24-Internetplattformen beteiligt ist, hat die Informatik zu ihrer Tochtergesellschaft Xmedia ausgelagert. Xmedia war folglich die erste Adresse, an die sich ImmoScout24 wandte.
Das Unternehmen ist Microsoft-orientiert, arbeitet aber eng mit Basis06 zusammen, um bei Bedarf von deren Java- und Informationslogistik-Know-how zu profitieren. «Auf diese Weise stehen unserem Unternehmen die verschiedenen Kompetenzen gebündelt zur Verfügung», erklärt Schneider.
Entsprechend basierte das erste Konzept des Warehouse auf Microsoft-Standardprodukten, für die Xmedia bereits über Know-how und Lizenzen verfügte. Die Präsentationsschicht und das Reporting dagegen sollten mit Open Source Software (OSS) realisiert werden, damit möglichst schnell – und ohne sich um weitere Lizenzen bemühen zu müssen – ein Prototyp gebaut werden konnte. Diesen Teil des Projekts betreute Basis06 und griff dazu auf das passende Modul des Pentaho-Projekts zurück.
Der Prototyp funktionierte mit den Testdaten tadellos und erbrachte den geforderten «Proof of Concept». Im Release 1 wurden dann, basierend auf dem Prototypen, die Daten aus den verschiedenen Quellen erfasst, entsprechend den Wünschen der Kunden konsolidiert und der File-Transfer erprobt. Mit der Lieferung der vordringlichsten Daten konnte ImmoScout24 so einem ersten Teil der Kundenbedürfnisse nachkommen.
«Das war eigentlich nicht mehr als ein produktiver Einsatz des Prototypen. Aber er gab uns Aufschluss über die zu erwartenden Datenmengen, die erforderliche Datenqualität und die Datenverarbeitung», beschreibt Schneider diese Projektphase.
Nachdem auch die folgenden, monatlichen Lieferungen problemlos abgewickelt werden konnten, folgte die dritte, entscheidende Phase: Mit Release 2 sollte das Warehouse-Konzept umgesetzt und für grosse Datenmengen produktiv gemacht werden.
«Wir folgten dem bisherigen Konzept», erzählt Schneider, «und es klappte weitgehend. Beim Warehouse ergab sich allerdings bei der Umsetzung eine Schwierigkeit mit der Software. Offensichtlich lag es an einer falschen Funktionalität. Unsere Entwickler glaubten, den Fehler erkannt zu haben. Da wir jedoch keinen Zugriff auf den Code hatten und das Programm nicht decompiliert werden konnte, waren wir blokkiert.»
Die Kunden warteten. Das Team stand unter Zeitdruck und suchte nach einer praktikabeln Lösung. In dieser Situation kam der Gedanke auf, neben dem Präsentationsmodul auch andere Teile der Pentaho-Suite einzusetzen, die die Warehouse-Funktionen übernehmen könnten.
Das seit zwei Jahren erhältliche Pentaho-Framework umfasst verschiedene Module, die entweder direkt in das Pentaho-Projekt eingebunden sind oder in eigenen Projekten betreut werden. Der grösste Teil der Suite steht unter einer Open-Source-Lizenz. Einzig die Module für Auditing, Lifecycle-Management und Clustering sind proprietär und damit nicht frei verfügbar. Trinkler betont jedoch: «Die proprietären Teile werden eigentlich nur in Enterprise-Umgebungen benötigt. Im Fall ImmoScout24 konnten wir auf Open-Source-Module zurückgreifen, insbesondere auf die Komponenten für ETL und Analysis.»
Nun liessen sich die anstehenden Probleme meistern. Das erleichterte ImmoScout24 den Entscheid für einen Technologiewechsel, denn wie Schneider sagt: «Wir hatten wenig Zeit, und funktionierende Lösungen sind nun einmal das beste Argument.»
Die Aufgabe, mittels eines Data Warehouse konsolidierte Daten zur Verfügung zu stellen, sei alles andere als banal, betont Schneider. Die Daten müssten extrahiert, tranformiert und mit den entsprechenden Objekten zusammengeführt werden, alles unter Berücksichtigung der selbst auferlegten, hohen Qualtitätsansprüche. Diese Regel-Sets zusammenzustellen, sei keine einfache Aufgabe gewesen.
Was jedoch die Kunden wie ImmoScout24 überraschte, war das grosse Datenvolumen von rund 1,5 Terrabyte.
Die Angaben aller inserierten Immobilienobjekten – Grösse, Baudatum, Preis, Verkauf – wurden während zweier Jahre gespeichert und das Verhalten der User auf der Plattform registriert. Auf diese Weise wurde erstmals in der Schweiz die Nachfrageseite im Immobilienmarkt dargestellt und mit den anderen Daten vereinigt.
«Jetzt», zieht Schneider Bilanz, «bietet die Lösung genau das, was die Kunden suchten, nämlich eine konsolidierte Sicht auf verschiedene Datenbestände. Ausserdem bekamen wir eine Benutzeroberfläche und Reporting-Tools für verschiedenste Auswertungen. Das war ursprünglich nicht Teil des Projekts, gehört aber zum Pentaho-Paket. Damit verfügen wir über ein Instrument, das wir auch bei unserem Kerngeschäft einsetzen können.»
Den Support – eine bei OSS-Projekten immer wieder diskutierte Frage – betreut Basis06. Der dedizierte Support steht nicht nur ImmoScout24, sondern auch den Kunden zur Verfügung. Trinkler erklärt, dass Basis06 seinerseits auf die Community und den Second-Level-Support von Pentaho zurückgreifen könne: «Es ist ja nicht so, dass es bei Open Source keine Bugs gibt. Aber Hilfe kommt oft schneller als bei proprietärer Software. Gleich zweimal bekamen wir innerhalb von 24 Stunden Fixes von der Community. Einmal erstellten wir einen Fix selber. Selbstverständlich stellten wir diesen ebenfalls der Community zur Verfügung.»
Auch finanziell hat sich der Umstieg auf OSS für ImmoScout24 gelohnt. Schneider will zwar keine Zahlen nennen, denn das Projekt zielt auch auf eine strategische Positionierung seines Unternehmens. Aber er könne Geld, das sonst für Lizenzen geflossen wäre, in Support und die weitere Entwicklung investieren.
Zurzeit liefert ImmoScout24 die Daten in Form von Flatfiles als Subsets der Datenbank aus. Da die Kunden gern sämtliche Daten zur Auswertung zur Verfügung hätten, überlegt er sich, ob er den Kunden den Webzugriff auf den Präsentations-Layer und direkte Online-Auswertungen in Form von Tabellen, Reports und geografischen Visualisierungen ermöglichen soll. Dies wäre mit der implementierten Lösung problemlos möglich und letztlich für alle Beteiligten einfacher als der regelmässige Transfer grosser Datenmengen, die von den Kunden anschliessend lokal ausgewertet werden.
Bereits denkt er auch an neue Projekte, etwa die Einbindung von Marktdaten aus anderen Scout-Plattformen wie JobScout: «Die technischen Grundlagen dafür sind nun vorhanden. Darauf können wir aufbauen.»
Basis06 ihrerseits arbeitet daran, aufgrund der Pentaho-Suite eine Standardlösung für analytisches Reporting für kleinere und mittlere Unternehmen zu erarbeiten, die auf den dort eingesetzten ERP-Systemen aufsetzt. Selbstverständlich werden dabei auch die Erfahrungen mit der Pentaho-Implementierung bei ImmoScout24 einfliessen.
Firma
Scout24 Schweiz, www.immoscout24.ch
Lösungsanbieter
Basis06, www.basis06.ch; Xmedia, www.xmedia.ch
Branche
Immobilien
Problemstellung
Zusammenführung von Daten der ImmoScout24-Plattform mit Bestands- und Planungsdaten zur Abbildung des Lifecycles einer Immobilie.
Lösung
Implementierung der freien Business-Intelligence-Suite Pentaho.
Erzielte Nutzen
Darstellung der Nachfrageseite im Immobilienmarkt.
Pentaho (www.pentaho.com) ist eine modulare BI-Produktsuite auf Java-Basis und wird als Open Source Software von einem kommerziellen Unternehmen betreut. Dessen Gründer hatten vor dem Pentaho-Projekt für die grossen BI-Hersteller gearbeitet.
Die Suite umfasst Komponenten für Reporting, Analysis, Dashboards, Datenintegration (ETL) und Data Mining, die sich wie der OLAP-Server Mondrian auch einzeln einsetzen lassen.
Die Management-Services erweitern die Produktarchitektur um Funktionen für den Betrieb von Server-Clustern und Lifecycle-Management in der Anwendungsentwicklung sowie Auditing. Diese Module sind nicht Open Source.