Noch kein Backup für die Ewigkeit
Artikel erschienen in Swiss IT Magazine 2001/14
Archäologen, die sich dereinst einmal mit unserer Zeit befassen, dürften eine überraschende Feststellung machen: Zwar bescherte die elektronische Datenverarbeitung den Menschen am Ende des 20. Jahrhunderts plötzlich Instrumente, um mit ungeahnt grossen Datenbeständen zu arbeiten und gleichzeitig auch ebenso grosse Datenbestände zu produzieren. Was die Menschen aber zu Beginn des digitalen Zeitalters konkret erarbeitet hatten, konnten die Forscher nicht herausfinden - die Datenbestände liessen sich auch mit den ausgeklügeltsten Methoden nicht mehr lesen. Viele Zeugnisse des Schaffens werden darum der Nachwelt verborgen bleiben. Dies gilt für Kulturgüter, für Radio und Fernsehdaten ebenso wie für Daten von Banken und Versicherungen und natürlich auch für wissenschaftliche Informationen.
Das ist keine Horrorvision. Daten gehen verloren: Schon heute sind rund 10 bis 20 Prozent der Weltraum-Daten, welche die Nasa mit den Viking-Sonden in den 60er Jahren erhoben hat, unlesbar geworden.
Und es trifft auch die Unterhaltungsindustrie. Der britische Musiker Brian Eno berichtet von einem traumatischen Erlebnis: "Wenn digitale Medien beschädigt werden, dann sind sie sofort nicht mehr lesbar. Währenddem ein analoges Tonband einfach gewisse Frequenzbereiche verliert und ausleiert, wird ein digitaler Studio-Tonträger plötzlich ganz unbrauchbar. Das ist mir mit einer Reihe von digitalen Aufnahmen passiert. Da war einfach plötzlich nichts mehr zu hören." Das Bewahren und Vermitteln des kulturellen Erbes wird immer schwieriger: "Die Einführung neuer Medientechnologien hat vielfach zu einer Verschlechterung der Situation in den Archiven geführt", heisst es in einem Aufsatz von Arno Günzl und Rudolf Gschwind von der Abteilung für wissenschaftliche Fotografie der Uni Basel.
Jeder hat schon die Erfahrung gemacht, dass sich eine CD-ROM - zumal eine selbstgebrannte - plötzlich nicht mehr lesen lässt. Meist hilft ein Ausweichen auf ein anderes Lesegerät weiter. Aber man bleibt alarmiert. Wer schon versucht hat, Daten von einer alten 5,25-Zoll-Diskette einzulesen, weiss, wie schwierig es ist, heute noch ein Lesegerät für dieses Format aufzutreiben, das noch bis Ende der 80er Jahre geläufig war. Die Ratgeberspalten von Computerzeitschriften beschäftigen sich immer wieder mit Ratschlägen für das Importieren von veralteten Datenformaten. Längst nicht für jedes Datenformat steht ein moderner Filter zur Verfügung, der ein problemloses Importieren ermöglicht. Abhilfe schafft dann nur ein Installieren des alten Systems und ein Exportieren der Daten auf ein heute noch gebräuchliches Datenformat.
Das Problem ist auch in Schweizer Firmen ein Dauerbrenner. Olaf Swantee, bei Compaq für Speichermedien (Enterprise Storage) zuständig, stellt eine differenzierte Wahrnehmung fest: "Vor allem Firmen, die sehr intensive IT-Nutzer sind, beschäftigen sich mit dem Problem. Dazu gehört die Telekom-Branche, der Medien- und Entertainment-Bereich wie auch die Finanzdienstleister."
Defizite ortet der Compaq-Manager im Bereich der kleinen und mittleren Unternehmen: "Dazu gehören zum Beispiel Architekturbüros oder Anwaltskanzleien - hier fehlt oft ein Problembewusstsein, und dementsprechend hat man dort auch keine Strategien."
Digitale Informationen bestehen eigentlich nur aus Nullen und Einsen. Solche simplen Daten aufzubewahren sollte kein Problem sein, denkt man. Weit gefehlt. Das Problem ist vielschichtig, und die Schwierigkeiten haben verschiedene Ursachen:
Die Medien - Disketten, Tapes, CD-ROMs und andere Datenträger - sind selber der Alterung unterworfen.
Die einst verwendete Software ist heute nicht mehr üblich ebenso das Datenformat, das zur Speicherung benutzt wurde.
Die damals benutzte Hardware ist beschädigt oder schlicht nicht mehr vorhanden.
Man kennt heute die Lebensdauer der verwendeten Medien nur sehr schlecht. Es fehlt an Vergleichsdaten. Immerhin können physikalische Rahmenbedingungen wie Temperatur, Feuchtigkeit, Licht und mechanische Beanspruchung simuliert werden. Diese Simulationen führen dann zu mehr oder weniger zuverlässigen Schätzungen. Das Problem beginnt aber in der Regel schon viel früher: "Die gespeicherten Daten werden unlesbar, nicht weil das Medium kurzlebig ist, sondern weil die Systemwechsel so schnell sind." Zu diesem Schluss kommt eine Studie, welche an der Abteilung für wissenschaftliche Fotografie an der Universität Basel erarbeitet wurde.
Der Produktzyklus liegt heute bei nur gerade ein bis zwei Jahren. Ab der zweiten Generation rückwärts wird es erfahrungsgemäss problematisch, und ab der dritten Generation ist Schluss. "Im allgemeinen ist der Datenträger dann inkompatibel und kann nicht mehr gelesen werden", heisst es in der Basler Studie.
Ein weiteres Problem kommt dazu: "Die Bedürfnisse verändern sich ständig. Viele Firmen werden in wenigen Jahren drei bis viermal so viel Speicher benötigen wie heute", erklärt Compaq-Manager Olaf Swantee. Trotzdem werden nicht mehr Ressourcen zur Verfügung stehen: "Wir gehen davon aus, dass bei den meisten Firmen weder mehr Finanzen noch mehr Personal zur Verfügung stehen, um dieses Problem zu lösen."
Hilft ein Blick in die Zukunft? Erlösen uns bald neue Speichertechnologien von unseren alten Sorgen? Mindestens in quantitativer Hinsicht dürften bald keine Wünsche mehr offen bleiben. Die Speichermedien werden immer leistungsfähiger. Einige, wenn auch nicht alle, werden auch langlebiger. Hier ein kurzer Blick auf die wichtigsten Entwicklungen:
Holografischer Speicher: Mit Hilfe eines Lasers wird ein kleiner Kristall - etwa fünf Zentimeter gross und drei Millimeter dick - "beschrieben". Die Daten werden gewissermassen eingraviert. Das Verfahren wurde am Institut für Kristallographie der Universität Köln entwickelt und soll riesige Datenmengen speichern können: Die Rede ist von Systemen, die bis zu 100 Petabyte aufnehmen. Das sind 1000 Terabyte oder 1000 Millionen Megabyte. Die Daten sollen mehr als 100 Jahre haltbar sein. Der Trick: An einem Speicherort können bis zu 10'000 verschiedene holografische Bilder gespeichert werden. Durch eine winzige Drehung des Kristalls wird ein neuer Einfallswinkel für den Laserstrahl erzeugt, dadurch wird ein neuer Speicherplatz geschaffen.
Millipede: Noch phantastischer klingt die Beschreibung eines Speichermediums namens "Millipede", das im IBM-Forschungslabor in Kalifornien entwickelt wurde. Es baut auf dem Prinzip der Rastertunnel-Mikroskopie auf, für die das Zürcher IBM-Forschungslabor 1986 den Physik-Nobelpreis erhalten hat. Bei dieser rein mechanischen Technologie werden mit einem unendlich feinen Instrument Atome verschoben. Peter Vettiger vom IBM-Forschungslabor in Rüschlikon vergleicht diesen Prozess mit einer Vinylplatte, deren Oberfläche von einer feinen Nadel abgetastet wird: "Weil dieser Prozess relativ lange dauert, haben wir Tausende solcher Einheiten zusammengenommen und in einen Chip eingebaut. Die Daten werden parallel auf den Speicherchip übertragen." Gemäss Vettiger ist heute noch unklar, welche Lebensdauer dieser Chip haben wird. Klar ist hingegen, dass auf diese Weise Speicher mit fast unendlicher Kapazität hergestellt werden können.
Fluorescent Multilayer Disc: Eine weitere vielversprechende Technologie trägt den Namen Fluorescent Multilayer Disc (FMD), die im Grunde ähnlich funktioniert wie eine DVD. Nur benutzt sie statt zwei Schichten 20 und in Zukunft vielleicht sogar 100 Schichten übereinander. Damit wäre es theoretisch möglich, Speicher bis zur Grösse von 450 GB zu bauen.
Schliesslich darf auch nach der Bedeutung des Internet? als Langzeitspeicher gefragt werden. Das erscheint auf den ersten Blick absurd, weiss doch jeder, wie schnell vergänglich Internetangebote sind. Nicht zuletzt deshalb gibt es das Projekt einer "Internet Library", welche in regelmässigen Abständen das gesamte Internet speichert und der Nachwelt erhalten will.
Trotzdem hat auch das Internet selber ein grosses Potential, uns zu einer langlebigen und äusserst sicheren Speichertechnologie zu verhelfen. Ursprünglich war es ja gerade für eine Situation entwickelt worden, in der einzelne Knoten im System ausfallen würden. Redundanz heisst das Zauberwort.
Und genau von dieser Redundanz will ein ganz anderes Speicherkonzept profitieren. Es trägt den Namen "Distributed Archival Network" und stammt wiederum aus der Küche der innovativen Basler Speicher-Spezialisten von der Abteilung für wissenschaftliche Fotografie, die seit kurzem zum neugegründeten Institut für Medienwissenschaften gehört.
Eine Reihe von Institutionen, so die Grundidee, sollen sich zusammenschliessen und miteinander ein Archivnetzwerk aufbauen. Redundanz heisst in diesem Fall geografische Verteilung und automatische Replikation.
Alle Daten sind in allen Knoten vorhanden. Dadurch kann auch ein katastrophales Ereignis - etwa ein Erdbeben - dem Archivnetzwerk nichts anhaben. Weil die Daten jeweils mit einem kryptographischen Verfahren verschlüsselt werden, hat trotzdem jedes Institut nur Zugriff auf seine eigenen Informationen.
Analoge Medien sind zeitbeständiger als digitale Medien. Dieser Schluss mag einleuchtend tönen, in der Praxis ist die Situation aber komplexer. Immer mehr durchdringen sich analoge und digitale Medien. Das zeigen einige Beispiele:
Historische Fotos werden nur dank digitaler Archivierung überleben können. Dasselbe gilt für ausgebleichte oder sogar beschädigte Fotos. Die Restaurierung von analogem Bildmaterial ist ein wichtiger Forschungszweig des Instituts für wissenschaftliche Fotografie an der Uni Basel. Die Digitalisierung der unzähligen Bildarchive dürfte weltweit Arbeit auf Jahre, wenn nicht gar Jahrzehnte geben. Die Sicherung des audiovisuellen Erbes in der Schweiz überfordert die traditionellen Institutionen. Nicht zuletzt deshalb wurde der Verein zur Erhaltung des audiovisuellen Kulturgutes der Schweiz, Memoriav, gegründet: Er unterstützt betroffene Institutionen und stellt in einzelnen Fällen auch Geldmittel für die Digitalisierung zur Verfügung.
Auch in die Bibliothek des Vatikans hat die Digitalisierung Einzug gehalten: Ein Programm, das mit IBM durchgeführt wird, erlaubt es in Zukunft, sehr viel mehr als nur gerade den 2000 Forschern, die heute diese Bibliothek besuchen, Einblick in die über 150'000 einmaligen Drucke und Handschriften zu geben. Dank dem Programm haben nicht nur viel mehr Menschen Zugang zu diesen Quellen - die wertvollen Bücher werden auch geschont, denn jede Benutzung beschädigt sie. Mit der Digitalisierung dürfte dieses Erbe auf lange Zeit hin gesichert sein - unter der Voraussetzung, dass die Daten regelmässig umkopiert werden.
Langfristig kann nur eine konsequente Digitalisierung das Überleben von wichtigen Archivbeständen sichern. Darüber besteht in der Fachwelt Einigkeit. Exotisch, aber durchaus nicht ohne Reize mutet das Projekt der Long Now Foundation an: Die Organisation will wichtige Daten in analoger Form auf eine Nickelscheibe pressen. Pro Scheibe haben 350'000 Seiten Platz. Was die Haltbarkeit betrifft, ist von 2000 bis 10'000 Jahren die Rede. Mit dem Projekt soll gesichert werden, dass die heute auf der Erde gebräuchlichen Sprachen auch noch in ferner Zukunft verstanden werden können. Die Nickelscheibe heisst denn auch "The Rosetta Disk" - in Anlehnung an den 1799 in Ägypten entdeckten Rosetta-Stein. Die Inschriften in verschiedenen Sprachen ermöglichten die Entschlüsselung der rätselhaften Hieroglyphen.
Die Archivierung von Datenbeständen ist ein anspruchsvolles Unterfangen. Die nachfolgend aufgeführten Tips gelten gleichermassen für den privaten und beruflichen Bereich, haben ihre Gültigkeit für PCs ebenso wie für Mainframes. Die Basler Studie zählt die wichtigsten Punkte auf, die für eine Langzeitarchivierung beachtet werden müssen.
Archivierungsstrategie: Zur Archivierungsstrategie zählt eine regelmässige Prüfung der Lesbarkeit, das Umkopieren oder Migrieren der Daten, das Sicherstellen von optimalen Lagerbedingungen, das Aufbewahren von wichtigen Daten an getrennten Orten und die Sicherstellung der Finanzierung. Ebenso gehört eine genaue Beschreibung der archivierten Daten dazu. Diese Beschreibungsdaten werden auch Metadaten genannt. Wer später nach bestimmten Daten sucht, wird dies in der Regel anhand dieser Metadaten tun.
Formate: Es empfiehlt sich generell, auf offene Standards zu setzen und Daten möglichst unkomprimiert zu lagern. Bei vielen Datenträgern gibt es nur proprietäre Formate, was diese ungeeignet für eine Langzeitarchivierung macht. Zip, Jaz oder Syquest-Medien beispielsweise verwenden proprietäre Standards und sind demzufolge weniger geeignet für die Langzeitarchivierung. Demgegenüber verwenden die heute handelsüblichen beschreibbaren CD-ROMs den ISO-Standard 9660, der gut dokumentiert ist.
Die verwendeten Datenformate sollten nicht von einem bestimmten Typ Hardware abhängig sein. Das Datenformat sollte offengelegt sein. Im Textbereich sind beispielsweise die Formate ASCII, RTF, HTML oder PDF weit besser geeignet als die ständig wechselnden Word-Formate. Bei den Bildformaten empfiehlt die Basler Studie das unkomprimierte, plattformunabhängige TIFF-Format. Wegen der Kompression ist das verbreiterte JPG-Format weniger für eine Langzeitarchivierung von digitalen Bildbeständen geeignet, dasselbe gilt für den GIF-Standard.
Datenträger: Das am meisten verbreitete Speichermedium dürfte hier die beschreibbare CD sein. Die Haltbarkeit dieser Scheiben ist nicht nur vom Speichermedium und von der Lagerung, sondern auch von der Qualität des Schreibprozesses und des Schreibers selber abhängig. CD-Brenner sollten ungefähr nach drei Jahren ersetzt werden. Die Basler Studie empfiehlt denn auch die CD-R zum Speichern von kleineren Datenmengen. Demgegenüber rät die Studie zur Zeit noch von der Benützung von DVDs zur Langzeitspeicherung ab. "Es fehlt an breit abgestützten Angaben über die Lebenserwartung." Ähnlich sieht es bei den magneto-optischen Speichermedien aus. Magnetische Speicher wie DLT sind demgegenüber vor allem für die Speicherung von grossen Datenmengen empfohlen, ausgenommen davon sind magnetische Wechselsysteme wie Zip, Jaz, Syquest, aber auch das vor allem in der Musik weltweit verbreitete DAT.
Hardware: In der Langzeitspeicherung wird generell angestrebt, Daten plattformunabhängig zu speichern. Deshalb sollte das verwendete System eigentlich eine untergeordnete Rolle spielen.
In der Praxis sieht es aber anders aus, denn "die Verwaltung grosser Datenmengen erfordert im allgemeinen sehr leistungsfähige Systeme", hält die Basler Studie fest. Und hier schneiden Serverlösungen besser ab als reine Desktop-Systeme. Ebenso positiv ist die Studie gegenüber Mainframes eingestellt.
Auch bei den Betriebssystemen sieht es ähnlich aus: Unix und Linux erweisen sich als geeignet, ebenso Windows NT, währenddem die anderen Windows-Betriebssysteme wie auch das Mac OS nicht empfohlen werden.
Neue Technologien mögen dereinst unsere Speicherprobleme lösen. Bis es aber soweit ist, müssen wir uns mit den heutigen Technologien begnügen. Was bedeutet dies alles nun für den Benutzer? Wer Daten langfristig erhalten und benutzen will, braucht ein Konzept. Das Konzept muss sich mit den Speichermedien auseinandersetzen und neben der Lagerung eine Qualitätssicherung sowie ein regelmässiges Umkopieren sicherstellen.
"Es braucht in jeder Firma Leute mit Kenntnissen im Bereich Storage, die eine Speicher-Strategie festlegen und auch umsetzen", stellt Compaq-Spezialist Swantee fest. Diese Strategie muss beispielsweise mit dem Wachstum zurechtkommen. Eine Universallösung gibt's nicht: "Gewisse Daten werden ständig benötigt, andere nur einmal in 20 Jahren - und entsprechend vielfältig müssen die Lösungen sein. In der Regel wird dies ein Mix aus verschiedenen Technologien sein." Immerhin, eine Tendenz sieht der Compaq-Mann, nämlich den Trend zu verteilten Storage-Lösungen, die aber zentral verwaltet werden. Im Grunde genommen ist dies die Übertragung des Client/Server-Modells auf die Speicherverwaltung.
Die Architektur von Speicherlösungen und die Wahl der Speichermedien sind zwei zentrale Fragen. Eine andere Frage muss aber jeder Benutzer und jedes Speicherkonzept vorweg klären: Welche Daten müssen überhaupt aufbewahrt werden? Peter Vettiger, der sich am IBM-Forschungslabor in Rüschlikon auch mit Mikro- und Nanomechanik beschäftigt, glaubt, dass hier vielfach gesündigt wird: "Wir müssen lernen, ein neues Verhältnis zu Informationen zu finden. Heute haben wir Zugang zu unendlich viel Information und wir produzieren auch ebensoviel. Wir müssen lernen, auszuwählen. Das gilt nicht nur für Individuen, sondern auch für Organisationen."
Im Klartext: Ausmisten kommt vor dem Archivieren. Oder etwas eleganter formuliert: Die Daten müssen konsolidiert werden. Peter Vettigers Wunsch bleibt damit vorläufig unerfüllt "Daten sollten eine Halbwertszeit haben und mit der Zeit einfach von selber zerfallen."