Mythen um hochverfügbare IT
Artikel erschienen in Swiss IT Magazine 2009/10
Dass eine ständige Verfügbarkeit der IT für Unternehmen heute lebenswichtig ist, ist eine Binsenweisheit, denn Geschäftsprozesse ohne IT, die gibt es längst nicht mehr. Dennoch fassen die meisten Unternehmen das Thema Hochverfügbarkeit bestenfalls mit spitzen Fingern an. Während die einen der Meinung sind, das Thema würde sie überhaupt nicht betreffen, erkennen andere zwar grundsätzlich die Gefahr, sehen aber nicht, wie sie sich mit den Möglichkeiten kleinerer und mittlerer Unternehmen dagegen wappnen könnten. Beides ist Anlass genug, einmal mit den Mythen, die rund um das Thema Hochverfügbarkeit entstanden sind, ein wenig aufzuräumen.
Alle Unternehmen sind heute in hohem Masse von ihrer IT abhängig und können daher von Server-Ausfällen massiv betroffen werden. Alle Unternehmen müssen daher Risikovorsorge betreiben. Lösungen wie fehlertolerante Server sind auf Grund des geringen Aufwands für Implementierung und Administration auch für kleinere und mittlere Unternehmen geeignet.
Tatsächlich sind Server heute wesentlich zuverlässiger geworden und Serverausfälle sind in der Tat selten. Allerdings sind auch die Anforderungen gestiegen: Unternehmen betreiben auf Standard-Servern unternehmenskritische Anwendungen, für die früher beispielsweise grosse Unix-Systeme eingesetzt wurden. Solche Anwendungen müssen kontinuierlich verfügbar sein, sonst können grosse Schäden entstehen, die möglicherweise sogar die Exis-tenz des Unternehmens gefährden. Standard-Server unter Linux und Windows erreichen heute eine Verfügbarkeit von etwa 99,9 Prozent – was einer durchschnittlichen Ausfallzeit von 8,7 Stunden pro Jahr entspricht. Für unternehmenskritische Aufgaben sind jedoch mindestens 99,99 Prozent, in der Regel sogar 99,999 Prozent erforderlich, die Server fallen dann maximal 5 Minuten im Jahr aus.
«Teuer» ist wie immer relativ und muss hier im Verhältnis zum möglicherweise entstehenden Schaden gesehen werden. Sollte ein Server-Ausfall Kosten in Millionen-Höhe verursachen, so wäre auch der teuerste Server noch preiswert, sofern er nur wirklich ausfallsicher ist. Tatsächlich aber ist Hochverfügbarkeit heute sogar für kleinere und mittlere Unternehmen erschwinglich. Fehlertolerante Server kosten unterm Strich sogar weniger als entsprechende Cluster-Lösungen, weil hier keine zusätzlichen Kosten für Software-Anpassung, zusätzliche Lizenzen oder eine aufwendige Administration anfallen.
Mittlerweile gibt es auch Lösungen, die die üblichen Standard-basierten x86-Server auf Basis der bekannten Open-Source Virtualisierungs-Software Xen zu einer hoch verfügbaren Plattform verbinden können. Solche Lösungen bieten eine Verfügbarkeit von über 99,99 Prozent und sind bereits ab gut 6000 Franken erhältlich.
Die für wichtige Aufgaben üblicherweise verwendeten Cluster-Lösungen sind in der Tat sehr aufwendig in der Implementierung wie in der Administration. Unternehmen müssen dabei auch über spezielles Know-how verfügen. Dagegen verhalten sich fehlertolerante Server, die aus komplett redundanten Komponenten aufgebaut sind, nach aussen wie ganz normale Server; für den Benutzer ist die Redundanz nicht sichtbar. Dementsprechend ist die Administration nicht aufwendiger als bei einem Standard-Server.
Cluster arbeiten im Störungsfall nicht unterbrechungsfrei. Die Übernahme der Prozesse durch das nicht gestörte System erfordert eine gewisse Failover-Zeit, während der Anwendungen und Daten nicht zur Verfügung stehen, weil beispielsweise System-Dienste und Programme neu gestartet, Datenbank-Transaktionen zurückgesetzt werden müssen usw. Auch wenn ein solcher Failover in modernen Clus-ter-Systemen weitgehend automatisch erfolgt, werden je nach Komplexität der Applikationen immer mehrere Minuten vergehen, bis alle Systeme wieder uneingeschränkt zur Verfügung stehen. In Extremfällen kann die Übergabe der Prozesse aber auch mehrere Stunden dauern. Cluster-Server kommen damit nicht über eine durchschnittliche Verfügbarkeit von rund 99,99 Prozent hinaus, was einer Ausfallzeit von einer knappen Stunde pro Jahr entspricht. Wobei je nach Anwendungsfall weniger die Länge der Ausfallzeit problematisch sein kann, als die unvorhersehbare Unterbrechung der Prozesse.
In der Praxis erweisen sich diese Systeme auf Grund ihrer Komplexität als recht schwierig und aufwendig zu administrieren. Es müssen ja zwei voneinander ganz unabhängige Server-Systeme mit jeweils eigenem Betriebssystem und eigener Anwendungssoftware betrieben werden, dazu kommt ein logischer Server für die Cluster-Steuerung. Diesem muss der Administrator mit einem Script mitteilen, welche Aufgaben im Störungsfall wie verteilt werden müssen. Natürlich sind zwei Systeme aufwendiger zu pflegen als eines, zumal ein Cluster nur funktionieren kann, wenn immer alles parallel erfolgt, zum Beispiel die Durchführung von Updates, die Einführung von Sicherheitsrichtlinien usw. Ist der Betrieb schon bei zwei Cluster-Knoten nicht ganz einfach, so steigt der Aufwand für die Steuerung und Kontrolle der Knoten erheblich, wenn noch mehr Server in einem Cluster zusammengeschlossen sind. Ohne entsprechend fachkundiges Bedienerpersonal lassen sich solche Konfigurationen nicht beherrschen. Cluster-Lösungen weisen damit relativ hohe Gesamtkosten auf, selbst wenn für die eigentliche Server-Hardware vergleichsweise preiswerte Geräte eingesetzt werden.
Für Cluster-Lösungen müssen die Applikationen tatsächlich angepasst werden. Fehlertolerante Server aber arbeiten mit Standard-Technologien, so dass Windows- und Linux-Applikationen ohne Anpassungen oder Änderungen betrieben werden können. Da sich der Server trotz redundanten Komponenten wie eine einzelne Maschine verhält, benötigen Anwender – im Unterschied zu Cluster-Systemen – für ihre Applikation auch jeweils nur eine einzige Lizenz.
Die Verfügbarkeit wird durch die Virtualisierung von Servern nicht verbessert, sondern sogar verschlechtert. Werden nämlich auf einem physischen Server mehrere virtuelle Umgebungen betrieben, so sind von einem Hardware-Ausfall immer gleich mehrere Server mitsamt den Anwendungen betroffen. Ein einziger defekter physischer Server zieht also eine ganze virtuelle Server-Gruppe mit sich – und für jedes System müssen dann mehr oder weniger aufwendige Massnahmen zur Wiederherstellung des Betriebs vorgenommen werden. Auch wenn diese Massnahmen mit entsprechender Software-Unterstützung automatisch ablaufen, so muss der Anwender dafür stets eine mehr oder weniger lange Zeitspanne einkalkulieren und wird unter Umständen auch das nicht korrekte Hochfahren von Datenbanken riskieren.
Wichtige Anwendungen müssen daher – gerade wenn sie auf virtuellen Servern laufen sollen – als sicheres Fundament eine wirklich hochverfügbare Hardware-Plattform erhalten. Dafür bieten sich fehlertolerante Systeme an, die mit Standard-Technologien eine Verfügbarkeit von über 99,9999 Prozent erreichen. Erst auf dieser technischen Basis ist die Hardware soweit gegen Störungen abgesichert, dass der gleichzeitige Betrieb von mehreren Servern kein zusätzliches Risiko darstellt.
Durch die Verwendung von Standard-Technologien sind heute Server oftmals vollständig kompatibel zu VMware ESX, so dass die Virtualisierungs-Software direkt auf der Hardware aufsetzen kann. Natürlich wird man nicht jeden physischen Server einer grossen Serverfarm auf diese Weise hochverfügbar machen, aber für diejenigen Server, auf denen unternehmenskritische Aufgaben laufen, ist dies doch unerlässlich.
Disaster Recovery ist Katastrophenschutz: Unternehmen schützen damit ihre IT vor Bränden, Erdbeben, Flugzeugabstürzen, Anschlägen usw., beispielsweise indem sie Rechenzentren an verschiedenen Orten aufbauen. Hochverfügbarkeit sorgt dagegen für den Schutz der IT bei technischen Störungen. Verantwortungsvolle Unternehmen werden daher immer beides in ihrem Sicherheitskonzept berücksichtigen.
Fehlertolerante Server arbeiten mit Standard-Technologien wie Intel-x86, Windows oder Linux, verschiedene Software-Lösungen bauen auf dem Open Source Server Xen auf. Diese Systeme erreichen ihre hohe Ausfallsicherheit indem sie die Standard-Technologien redundant auslegen. Alle betriebswichtigen Teile sind hier doppelt vorhanden: Prozessoren, Speicher-Chips und I/O-Einheiten, also nicht nur, wie sonst in Highend-Systemen üblich, nur Netzteile und Festplatten. Sollte eine Komponente ausfallen, führt die jeweilige Partner-Komponente automatisch und vom Benutzer unbemerkt den Betrieb weiter. Die jeweilige Applikation kann somit ohne Daten- oder Statusverlust kontinuierlich weitergeführt werden.
Trotz der durchgängigen Redundanz verhalten sich fehlertolerante Server gegenüber dem Betriebssystem wie ein einziger Standard-Rechner. Es müssen also seitens der jeweiligen Software überhaupt keine weiteren Anpassungen für den Einsatz mit den redundanten Komponenten des Servers vorgenommen werden, da die Software auf Seiten der Hardware immer nur ein einziges System sieht. Die Steuerung erfolgt im Server durch dessen eigene System-Software. Diese ist – ein weiterer Unterschied zu vielen Cluster-Lösungen – vollständig Windows-kompatibel, verträgt sich also mit allen Windows-Applikationen, -Erweiterungen usw.
Die überwiegende Zahl von Airbags kommt nie zum Einsatz, dennoch gehören diese heute zur Standard-Ausstattung eines jeden PKWs. Das effektive Risiko ergibt sich aus dem Produkt von Schadeneintrittswahrscheinlichkeit und möglicher Schadenshöhe – diese ist in den letzten Jahren enorm gestiegen. In kritischen Bereichen können Unternehmen daher auch kurzzeitige Ausfälle ihrer Server nicht riskieren, zumal sie mit relativ geringem Aufwand Vorsorge treffen können.
· Verfügbarkeit ist ein zentraler Punkt in der IT.
· Unternehmen tun sich schwer mit dem Thema Hochverfügbarkeit.
· Auch für kleine und mittlere Unternehmen ist Hochverfügbarkeit zu bewerkstelligen.
· Einige wesentliche Punkte rund um das Thema sind zu beachten.