Der lange Weg zum ILM
Artikel erschienen in Swiss IT Magazine 2006/16
Information Lifecycle Management (ILM) ist eine Kombination von Strategien, Methoden und Anwendungen, um Information automatisiert entsprechend ihrem Wert und ihrer Nutzung auf dem jeweils kostengünstigsten Speichermedium bereitzustellen und langfristig sicher aufzubewahren.
Der Begriff stammt aus den USA und wurde von Speichersystemanbietern 2003 als Marketing-Slogan auserkoren. Verschiedentlich und in anderer Bedeutung wurde der Begriff bereits in den 90er Jahren benutzt. Er besteht aus den Komponenten «Information», «Lifecycle» (engl. für Lebenszyklus) und «Management» im Sinne der Verwaltung, Handhabung und Kontrolle von Informationen in einem Informationssystem. Vergleichbare Begriffe mit teils ähnlicher Bedeutung sind DLM (Data Lifecycle Management, synonym zu ILM verwendet), DLM (Document Lifecycle Management, ähnlich verwendet wie ILM) und CLM (Content Lifecycle Management bzw. eingeschränkt Web Content Lifecycle Management). ILM wird besonders durch Compliance-Anforderungen getrieben, welche die Archivierung von Informationen erforderlich machen.
Storage-Lösungen wurden in der Vergangenheit mehr oder weniger nur als Hardwarekomponenten angesehen, die über Dateisysteme oder spezielle Anwendungen mit Informationen beschickt wurden. Sicherheitsanforderungen, Auslagerungsstrategien und die Einbindung in Netzwerke führten zu kombinierten Hardware-/Softwarelösungen RAID, HSM (Hierarchisches Speichermanagement) und SAN sind hier die zugehörigen Akronyme. Letztlich war aber der Fokus der Lösungen auf die Verwaltung der Speicherkomponenten ausgerichtet. ILM redefiniert die Verwaltung von Information und geht weit über das herkömmliche Storage-Management hinaus: die Speicherung von Information orientiert sich an Lebenszyklus und Nutzung derselben. ILM berücksichtigt damit sowohl die Aspekte dynamisch veränderlicher Daten zu Beginn des Lebenszyklus als auch die Langzeitarchivierung. Anders als bei herkömmlichen Document-Lifecycle-Management- oder Content-Lifecycle-Management-Strategien erfolgt keine Einengung auf bestimmte Ausprägungen und Typen von Information. ILM speichert Information unabhängig von Quelle und Format. Damit wird es auch möglich, Programmversionen, Daten, Datenbanken und beliebige Inhalte in die Verwaltung einzubeziehen. ILM ist die Zusammenführung verschiedener Storage-, Archiv-, Content- und Document-Management-Technologien, um dem Anwender eine transparente Schnittstelle und dem Systemadministrator eine einfach zu administrierende, einheitliche Speicherplattform zu bieten.
ILM ist also nicht etwa ein Produkt, sondern eine Kombination aus Prozessen und Technologien, um die richtige Information zur richtigen Zeit am richtigen Ort bei geringsten Kosten zu haben. Dies wird in einem permanenten Optimierungsprozess erreicht, der seine Parameter durch externe Vorgaben (Wert der Daten, Sicherheitsanforderungen, SLAs etc.) und durch die vorhandene Speicherhierarchie mit ihren Kostenstrukturen erhält. Als Ergebnis dieses Optimierungsprozesses ergeben sich Entscheidungen, wo Informationen am besten zu speichern oder konkret: wie Backup-, Replikations-, Verdrängungs-, Verlagerungs- und Archivierungsfunktionen zu steuern sind.
In vielen Branchen ist ILM bereits heute nicht nur wirtschaftlich sinnvoll, sondern eine Voraussetzung, um im Wettbewerb bestehen zu können. ILM adressiert viele der typischen Probleme, mit denen IT-Manager heute zu kämpfen haben:
++ Langzeitarchivierung relevanter Information zur Erfüllung regulativer und rechtlicher Vorgaben
++ Prozessgesteuerte Bereitstellung und Kontrolle von Information unabhängig von Quelle, Medium, Erzeuger, Ort und Zeit
++ Automatische Aussonderung nicht mehr benötigter Information nach Ablauf des Lebenszyklus
++ Erlangung von Rechtssicherheit durch elektronisch signierte Dokumente
++ Überwindung von Medienbrüchen zwischen Papier und elektronischen Daten und zwischen Daten unterschiedlicher Anwendungen
++ Vereinheitlichung der Speicherorte für unterschiedlichste Typen von Information
Alles dreht sich also um elektronische Archive, das eigentliche Gedächtnis der Informationsgesellschaft. ILM ist deshalb auch auf gesellschaftlicher Ebene wichtig, weil dieses Gedächtnis heute ungeordnet und überfrachtet ist und erste Ausfallerscheinungen zeigt. Einerseits werden wir von einer Informationsflut überrollt, andererseits tut sich aber eine immer grösser werdende Informationslücke nicht mehr verfügbarer oder verwendbarer elektronischer Information auf. Der Wert von Informationen für Unternehmen und die Gesellschaft ist immer noch nicht richtig erkannt. ILM beseitigt zwar nicht alle Probleme, aber es ist die bisher umfassendste Strategie im Information-Management-Bereich. ILM ist die Lösung, die den Wert von Informationen heute erschliesst und auch für die Zukunft bewahrt.
Für ein effizient arbeitendes ILM sind gewisse Vorleistungen, wie die Virtualisierung des Online-, Nearline- und NAS-Bereichs, erforderlich. Ausserdem wird ein durchgängiges Konzept benötigt, gemäss dem die Trennung der logischen von der physikalischen Schicht stattfinden soll und Informationen aufgrund von Prozessentscheidungen optimal plaziert werden können. Es ist eine ganze Reihe von Subsystemen nötig, um alle Anforderungen an ILM abdecken zu können. Sie bilden zusammen ein geschlossenes Rahmenwerk, das den ganzen Lebenszyklus von der Entstehung bis zur Entsorgung einer Information unterstützt:
++ Systeme zur Erfassung, Indexierung und Ordnung unterschiedlichster Formen von Informationen
Es gibt zwei grundlegende Punkte, die bei der Realisierung eines ILM-Projekts von ausschlaggebender Bedeutung sind: die Wahl der Plattform und die Einführung einer Service-orientierten, schichtförmigen Architektur. Die Plattform ist wichtig, weil anders als beim Monolith-artigen ERP-Ansatz, der von einer zentralen Applikation ausgeht, eine ILM-Lösung ein Cluster von Funktionen darstellt, das in verschiedenartigste Systeme integrierbar sein muss und auch untereinander reibungslos zu funktionieren hat.
Eine Plattform zu wählen, bedeutet, sich für einen Hauptlieferanten (Hersteller) zu entscheiden, der eine möglichst umfassende ILM-Lösung bietet, das heisst, der möglichst viele Teilsysteme des genannten Rahmenwerks abdecken kann. In diesem Zusammenhang ist wichtig, dass der Begriff «Plattform» richtig verstanden wird. Gemeint ist nicht eine einzelne Applikation, die alle Aspekte abzudecken versucht, sondern eine flexible Umgebung, ein Framework, das ein Grundgerüst zur Integration der verschiedenen Teilsysteme ist, wobei die Teilsysteme einzelne, unabhängige, aber optimal aufeinander abgestimmte Applikationen sind. Das hat seine Bewandtnis in der Tatsache, dass die einzelnen Teile einer ILM-Lösung völlig unterschiedliche Verwendungszwecke und damit verbunden komplett unterschiedliche technologische Anforderungen und Lebensdauern haben. Während zum Beispiel ein System zur unveränderbaren elektronischen Archivierung eine eher statische Angelegenheit ist, die im Hintergrund läuft und von der ein Benutzer in der Regel nie etwas mitbekommt, ist ein Workflowtool eine sich schnell entwickelnde Anwendung, bei der immer bessere Benutzerschnittstellen und Funktionen gefragt sind und die mit einem sich ebenfalls rasch entwickelnden Gut nämlich den Geschäftsprozessen hantiert. Es ist also ohne weiteres denkbar, die Workflow Engine nach einem Jahr durch eine leistungsfähigere zu ersetzen, während die Langzeitarchivsoftware fünf Jahre nicht verändert wird. Wenn beide Funktionen mit der gleichen Software realisiert wurden, ist man blockiert respektive begibt sich in sehr kostspielige Abhängigkeiten.
Der zweite wichtige Punkt ist die Einführung eines Schichtenmodells oder einer Service-orientierten Architektur (SOA). Wie wir gesehen haben, liegt es in der Natur von ILM-Lösungen, Daten unabhängig von ihrer Art und Herkunft zu behandeln. Dies ist nur möglich, wenn die Daten auch unabhängig von ihrer Applikation gespeichert werden können. Und schon hat man die erste Schicht resp. den ersten Service: den Speicher. Er ist zentral und kann von jeder Applikation verwendet werden (im Gegensatz zur klassischen Silo-Architektur, in der jede Applikation ihren eigenen Speicher sprich Server mit RAID-System besitzt). Genau so sollte man auch mit allen anderen Aspekten verfahren. Eine typische Service-orientierte Architektur weist fünf bis sechs Schichten auf (siehe Grafik):
++ Storage: in der Regel eine Kombination von Hardware und Storage Management (z.B. HSM)
++ System: die OS-Ebene
++ Daten: die Datenablage (Datenbanken, DMS etc.), die eng mit der Storage-Schicht verbunden ist
++ Metadaten: unabhängig von der Datenschicht, in der sich verschiedene Formen von Datenhaltung tummeln können, sollten die Metadaten in dieser separaten Schicht verwaltet werden
++ Applikationen: die Schicht, in der die eigentlichen Funktionen in Form von Anwendungen oder lose gekoppelten Diensten konsumiert werden können
++ Integration: in dieser Schicht werden die Daten zwischen den einzelnen Applikationen bewegt (mittels Enterprise Application Integration, EAI)
++ Workflow: bildet die Geschäftsprozesse ab und steuert die Anwendungen
++ Präsentation: interagiert mit dem Benutzer via Portal oder Client-Anwendung.
Erst wenn man sich im klaren darüber ist, wie man die bestehende IT-Umgebung in eine Service-orientierte Architektur überführen kann, sollte man mit der Umsetzung der einzelnen Teile beginnen. Wie in jedem komplexen Projekt gilt auch hier, dass viel Risiko aus dem Projekt genommen werden kann, indem man es in übersichtlichere Teilprojekte herunterbricht und diese sequentiell umsetzt. Einen guten Start stellt in der Regel ein Storage-Projekt dar, weil man damit nicht in Prozesse und Applikationen eingreifen muss, sondern lediglich Daten an einen andern Ort verschiebt. Gleichzeitig ist es für die Folgeprojekte günstig, wenn der Datenbestand einigermassen aufgeräumt ist.
Generell gilt für eine Speicherstrategie nach dem ILM-Ansatz: Je wichtiger die Daten für ein Unternehmen und seine Prozesse sind, desto höher sollte ihre Verfügbarkeit sein und desto kostspieliger sind die geeigneten Speichermedien. So werden tagesaktuelle Geschäftsvorgänge online für den sekundenschnellen Zugriff und möglichst redundant bereitgestellt. Weniger aktuelle Daten werden nach einer bestimmten Zeit oder aufgrund von Regeln (zum Beispiel wenn ein Projekt oder ein Vorgang abgeschlossen ist) automatisch auf einen festplattenbasierten, günstigeren Langzeitspeicher ausgelagert, um den wertvollen Hochleistungsspeicher nicht zu überlasten. Von dort können sie immer noch zeitnah etwa zu Zwecken wie Data Mining oder Reporting abgerufen werden. Informationen wie Verträge, auf die Anwender eher selten zugreifen, werden preisgünstig auf billigen Disksystemen oder Magnetbändern archiviert. Sollten solche Informationen für die Geschäftsprozesse erneut relevant sein, werden die Daten wieder auf die Online-Medien zurückgespielt und der Kreislauf beginnt von vorne.
Das erinnert stark an das traditionelle Hierarchical Storage Management (HSM), bei dem Informationen über die Zugriffshäufigkeiten und das Alter von Daten gesammelt werden und dann gemäss diesen Informationen, und damit nach ihrer Wichtigkeit, auf hochverfügbarem oder auf billigerem Speicher abgelegt werden. Technologische Basis für eine ILM-Umgebung ist daher eine vernetzte, mehrstufige Speicherlandschaft, die je nach Bedarf Konzepte wie Storage Area Network (SAN), Network Attached Storage (NAS) oder Content Addressed Storage (CAS) einschliesst.
Aufbauend auf der Storage-Schicht lässt sich mit weiteren Teilprojekten in andere Bereiche des ILM vordringen. Im zweiten Integrationsschritt sollten weitere Grundlagen geschaffen werden: Wenn man Daten automatisiert verwalten will, muss man sie zuerst kategorisieren und die Ablage strukturieren. Deshalb bietet es sich an, als nächstes eine Metadatenschicht einzuziehen. Dafür gibt es heute zwar erst wenige, aber umso bestechendere Lösungen, die es erlauben, unabhängig vom Speicherort und von der Art der Daten diese mit Metadaten-Tags zu kategorisieren. Die so eingebrachte Struktur ist später die Basis für die Regeln des ILM. Auch dieses Teilprojekt ist nicht invasiv und hat bis auf die Tatsache, dass alle vorhandenen Daten angefasst werden müssen, keine Auswirkungen auf bestehende Systeme.
Allein durch diese beiden Integrationsschritte sind vier von sechs Subsystemen vorhanden, die nun zur weiteren Umsetzung der ILM-Lösung verwendet werden können. Die nächsten Schritte sind eigentlich selbsterklärend (Einführen der Regeln, Aufsetzen der Prozesse und Etablieren der Archivfunktion).
In der Praxis muss eine ILM-Lösung drei Kriterien erfüllen:
1. die intelligente Klassifizierung der Daten
2. die Zuordnung einer passenden Storage- zu jeder Datenklasse
3. eine offene Architektur, in der die einzelnen ILM-Elemente (Enterprise Content Management, Sicherheit, Storage Management, Prozesse etc.) flexibel zusammengebaut werden können.
Die Sicherheit ist selbstverständlich auch ein wichtiger Aspekt, kann aber bei einer derartigen Lösung als inhärent betrachtet werden, weil man sich sowieso damit befassen muss. Selbstverständlich ist darauf zu achten, dass gesetzliche und regulatorische Vorgaben (wie Basel II oder SOX oder in bestimmten Branchen auch spezifische wie FDA) mit der realisierten Lösung tatsächlich eingehalten werden können.
Einmal abgesehen davon, dass es nicht allzu viele verschiedene Anbieter von ILM-Plattformen gibt und man sich sicher einem Hersteller «verschreiben» muss, haben Unternehmen die freie Wahl der Komponenten, die ihre Anforderungen am besten abdecken. Lösungsvorteile wie Konsolidierung, einfaches Management und schnelle Implementierung führen zu erheblichen Einsparungen bei den Kosten des Informationsmanagements. Der ILM-Ansatz ist auch vergleichsweise zukunftsorientiert und bietet einen hohen Investitionsschutz, weil er die Basis für kommende Storage-Grid-Architekturen ist.
Wenn auch viele Komponenten und der ILM-Ansatz an sich schon erstaunlich ausgereift und robust sind (man bedenke, dass es den Begriff erst seit drei Jahren gibt), gibt es gewisse gravierende Probleme, die noch zu lösen sind. Eines davon liegt in der Haltbarkeit von Daten in Langzeitarchiven. Man spricht von Langzeitarchivierung, wenn Informationen mindestens zehn Jahre und länger aufbewahrt und zugreifbar gehalten werden. Weil gebräuchliche Speichermedien nur eine begrenzte Lebensdauer haben, ist die Haltbarkeit digital gespeicherter Informationen aber beschränkt. Mit zunehmender Archivierungsdauer (zum Beispiel 30 Jahre) ergeben sich auch noch andere technische Schwierigkeiten, denn in diesem Zeitraum verändert sich auch die Speichertechnologie selber, und die Software, mit der die Informationen ursprünglich erstellt wurden, entwickelt sich so stark, dass die alten Daten nicht mehr geöffnet werden können. Die heute gespeicherten Daten müssen in Zukunft also immer wieder umkopiert und konvertiert werden, was einen gewaltigen administrativen Aufwand verursachen wird.
In diesem Bereich sind sicher noch Lösungen zu erwarten, ebenso ist der Bereich der Metadatenverwaltung noch verbesserungswürdig. Heutige Architekturen sehen die Metadatenhaltung oft auf der gleichen Ebene wie die Daten selber, was aber nicht besonders sinnvoll ist, weil dadurch in jedem einzelnen Gefäss (Datenbank, DMS etc.) eine separate Metadatenstruktur eingeführt werden muss. Dies führt zu Redundanzen und wird schnell inkonsistent. Gewaltige Fortschritte sind in naher Zukunft vor allem im Workflow-Bereich zu erwarten. Es ist eine Tendenz abzusehen, dass Workflow Engines in den Betriebssystem-Layer verlagert werden. Dadurch wird eine viel höhere Integration in einzelne Applikationen ermöglicht, weil die Applikationshersteller die Schnittstellen zum Workflow liefern werden. Workflow-Projekte werden vermutlich dramatisch billiger werden. Ähnliches geschieht zur Zeit im DMS- und ECM-Umfeld, in dem auch immer mehr Funktionalität vom Applikations- auf den Systemlayer verlagert wird. Hier geht es vor allem um die Benutzerfreundlichkeit, die mit zu den wichtigsten Gründen gehört, wieso eine ILM-Lösung akzeptiert wird oder eben nicht. Zusammenfassend lässt sich sagen, dass heutige ILM-Lösungen einen Grad an Ausgereiftheit aufweisen, der einen Einsatz in grossen und mittelständischen Unternehmen ermöglicht, doch die Entwicklung ist noch lange nicht abgeschlossen und es bleibt in diesem Umfeld spannend.
Mögliches Schichtenmodell für ILM