Varianten der Deduplizierung
Artikel erschienen in Swiss IT Magazine 2010/01
Datendeduplikation ist ein aktueller Storage-Trend und kann wesentlich zur Konsolidierung der Speicherlandschaft beitragen – der Hintergrundartikel «Dedupe gegen Storage-Hunger» schildert die Problematik und beschreibt die Lösung eines bestimmten Herstellers näher.
Es gibt aber zwei unterschiedliche technische Varianten und mehrere Ansatzpunkte, an denen die Deduplizerung greifen kann. Prinzipiell unterscheidet man bei der Technologie zwischen Source-side- und Target-side-Deduplication.
Bei der Source-side-Deduplication werden doppelte Daten File- oder Block-basiert bereits an der Quelle, also typischerweise auf dem Server, der für die erste Stufe der Datenhaltung zuständig ist, identifiziert und in der Folge nur einmal im Filesystem gelagert. Die «doppelten» Files werden zwar als separate Entitäten geführt, aber nur in Form von Links zu der einmal gespeicherten Datei erfasst.
Die Target-side-Deduplication sorgt auf der Storage-Seite dafür, dass keine von den Quellen eingehenden Daten doppelt gelagert werden. Dabei sind zwei Implementationstypen zu unterscheiden: Bei der Post-Process-Deduplication werden alle eingehenden Daten zunächst auf der Speichereinheit abgelegt und erst später auf doppelte Daten hin analysiert. Der Vorteil: Beim Speichern entsteht keine Verzögerung, dafür kann es bei starker Auslas-tung des Speichergeräts durch die zu Beginn allenfalls doppelte Ablage zu Engpässen kommen – und der Zeitbedarf für das Post-Processing und damit der Zeitpunkt, wann die Daten tatsächlich dedupliziert bereitstehen, lässt sich nicht voraussagen.
Anders die Inline-Deduplication: Hier werden die Daten direkt beim Eintreffen analysiert. Die Analyse – im Normalfall durch Berechung der Hash-Werte eingehender Daten und Nachschlagen in einer Metadatenbank mit bereits erfassten Hashes – beansprucht jedoch Rechenleistung und Zeit; die Storage-Performance wird zwangsläufig etwas reduziert. Je nach Implementationstyp spielt dieses Gegenargument heute aber keine grosse Rolle mehr.
Hersteller IBM zum Beispiel betont, seine Protectier-Technologie basiere nicht auf Hash-Algorithmen, sondern auf einem «Hyperfactor» und biete deshalb Datenintegrität der Enterprise-Klasse und eine konstante Backup-Performance von 1000 Megabyte pro Sekunde.
Unabhängig von der Variante steht Deduplizierungstechnologie je nach Anbieter in diversen Produktformen zur Verfügung. Einige Hersteller von Backup-Software, darunter CA, Commvault, Symantec und Veeam, haben Deduplizierungsfunktionen in ihre Produktsuiten integriert. Die Deduplizierung ist jedoch oft nur als Zusatzoption zu haben.
Der nur als OEM-Produkt erhältliche Windows Storage Server von Microsoft bietet mit SIS (Single Instance Storage) ebenfalls integrierte Source-side-Deduplizierung. Auch das ZFS-Filesystem des Sun-Betriebssystems Solaris bietet seit November 2009 integrierte Deduplikation – von diesem Hersteller haben wir allerdings keine näheren Angaben erhalten, weshalb der Tabelleneintrag fehlt.
Die bekannten Storage-Anbieter wie HP, IBM und Quantum – einer der Pioniere der Datendeduplizierung – bieten in erster Linie Target-side-Deduplication an, die direkt in die Speichereinheiten integriert ist, als Gateway der Storage-Landschaft vorgeschaltet wird oder als Appliance (Virtual Tape Libary oder Disk-to-Disk-Backupsystem) die Gateway-Funktion mit integrierter Speicherkapazität kombiniert. Das Betriebssystem Ontap, das auf den Netapp-Speichergeräten läuft, enthält ebenfalls einen integrierten Deduplizierungsmechanismus.
Interessant ist die Architektur von Exagrid: Sie erlaubt hohe Skalierbarkeit der Speicherkapazität nach dem Grid-Prinzip und wartet mit integrierter Deduplizierung auf.
EMC offeriert als Hardware- und Softwareanbieter gleich drei Varianten – neben der von Legato übernommenen Backup-Software Networker gibt es die Source-side-Lösung Avamar und die Inline-basierte Target-side-Lösung von Data Domain, die als Appliance, als reiner Gateway oder integriert in verschiedene Enterprise-Arrays erhältlich ist.
(ubi)