Jedes Unternehmen kämpft heutzutage mit einer Vielzahl von Bedrohungen, die die Verfügbarkeit und Datenintegrität kritischer IT-Systeme gefährden. Der Klimawandel erhöht das Risiko von Hochwasser, Stürmen, Waldbränden und anderen Naturkatastrophen, die zu Geschäftsausfällen führen können. Aber auch alltägliche Bedrohungen wie Hardwareausfälle und unbeabsichtigte menschliche Fehler oder Cyberangriffe können ein Unternehmen in die Knie zwingen.
Da verwundert es nicht, dass viele Unternehmen auf Disaster-Recovery-Dienste (DR) zurückgreifen, um das Risiko von Ausfällen, die den Geschäftsbetrieb wochenlang unterbrechen können, zu reduzieren. Profis im Bereich Geschäftskontinuität können jedoch bestätigen, dass es nicht ausreicht, Applikationen und Daten einfach in der Cloud zu replizieren und dann im Krisenmoment zu hoffen, dass das Failover reibungslos verläuft. Es ist wichtig, dass Unternehmen auf verschiedene Ausfallszenarien vorbereitet sind, alle Personen kennen, die eine Schlüsselrolle bei der Schadensbegrenzung spielen und die Failover- und Failback-Operationen regelmässig testen. Sie wollen ja auch nicht voller Panik erstmals nach dem Fluchtweg suchen, wenn das Gebäude schon brennt und die Luft voller Rauch ist. Das regelmässige Testen von DR-Szenarien kann entscheiden, ob es nur zu einer kurzen und kontrollierbaren Unterbrechung oder einem längeren Ausfall kommt, der die Rentabilität, den Ruf und sogar das Überleben Ihres Unternehmens gefährden kann.
Disaster Recovery planen
lich kompliziert. Unternehmen müssen jedoch vorausschauend planen, um sicherzustellen, dass sie alle relevanten Personal-, Prozess- und Technologieaspekte berücksichtigt haben. Sie sollten dabei die folgenden Schritte beachten, damit ihre Investition in DR-Dienste sie optimal vor gravierenden IT-Ausfällen schützt:
1. Ermitteln Sie zunächst die allgemeinen RPOs (Recovery Point Objectives = Wiederherstellungspunktvorgaben) und RTOs (Recovery Time Objectives = Wiederherstellungszeitvorgaben) für Ihr Unternehmen. Diese beiden Werte geben an, wie viele Daten maximal bei einem Ausfall verloren gehen dürfen und wie lange ein Ausfall maximal dauern darf, bevor einem Geschäft untragbar hohe Kosten entstehen. Zu den Kosten zählen unter anderem die Kosten für Mitarbeiterproduktivität, Opportunitätskosten für verlorene Umsätze, Strafen für die Nichterfüllung von Service-Level-Vereinbarungen, Versicherungs- und Rechtsansprüche, Rufschädigung bei Kunden und Partnern sowie Compliance-Strafen. Ähnliche Kostenkalkulationen haben Sie sicher schon durchgeführt, als Sie Backup-Pläne für Ihre Applikationen und Daten entwickelt haben. Bestimmen Sie, welche IT-Ressourcen kritisch genug sind, dass sie eine Replikation erfordern, einschliesslich lokaler und cloudbasierter Ressourcen. Lassen Sie den Plan von der Geschäftsführung, den Geschäftsbereichsleitern, GRC (Governance, Risiko und Compliance)- sowie den IT- und Cyber Security-Verantwortlichen genehmigen.
2. Ermitteln Sie Personen aus den Bereichen IT-Operationen, Netzwerk und Cyber Security, die für das DR-Team von entscheidender Bedeutung sind, sowie ein Vorfall-Kommunikationsteam. Nach einem Vorfall müssen Sie entscheiden, wann und in welchem Umfang die betroffenen Parteien, darunter Führungskräfte, Angestellte, Partner, Kunden, die Presse, Investoren, Banken und Aufsichtsbehörden, über den Vorfall informiert werden sollen. Diesem Team sollte ein Mitglied der Geschäftsführung und eventuell Angestellte aus der Personal-, der Rechts- sowie der PR-Abteilung und den Abteilungen für Investorenbeziehungen und GRC angehören. Benennen Sie für jede dieser Rollen einen Stellvertreter, der die hauptverantwortliche Person während einer Geschäftsreise, einem Urlaub, einer Krankheit oder nach einer Änderung im Beschäftigungsstatus vertreten kann. Erstellen Sie eine Kontaktliste mit Telefonnummern, E-Mails und Benutzernamen (Messaging-Apps) und sorgen Sie dafür, dass alle Teammitglieder diese Liste ausgedruckt und griffbereit haben. Eine Kontaktliste, die auf einem Server gespeichert ist, nützt niemandem etwas, wenn der Server durch Ransomware verschlüsselt wurde oder das Netzwerk offline ist.
3. Erstellen Sie einen DR-Basisplan, der wahrscheinliche Katastrophenfälle beschreibt, zum Beispiel einen umfassenden Ransomware-Angriff, der wichtige Systeme lahmlegt, einen schweren Sturm, der die Stromversorgung und die Kommunikation im primären Datenzentrum unterbricht, oder menschliches Versagen, wie eine fehlgeschlagene Datenbankmigration oder andere Fehler des IT-Personals. Verfassen Sie für all diese Szenarien einen Reaktionsplan und führen Sie darin die Schritte auf, die Ihr Team zur Bewältigung des Vorfalls unternehmen sollte. Dazu gehört die Erkennung, das Sammeln von Informationen, die Verfolgung sowie die Eindämmung des Vorfalls, die Wiederherstellung der betroffenen Systeme und Daten und die Durchführung forensischer Untersuchungen nach dem Vorfall, um Reaktionen auf zukünftige Vorfälle zu verbessern. Dieser Abschnitt sollte die wichtigsten Kriterien enthalten, um eine Entscheidung zur Auslösung von Failover- beziehungsweise Failback-Operationen im Rahmen der Disaster Recovery zu treffen.
4. Erstellen Sie einen Eskalationsabschnitt mit Schritten, die einzuleiten sind, falls der Vorfall nicht sofort behoben werden kann. In diesen Abschnitt gehören unter anderem Antworten auf folgende Fragen: Wie lässt sich feststellen, ob der Vorfall noch andauert? Welche Daten und anderen IT-Ressourcen sind nach wie vor gefährdet? Wie stark wird das Geschäft beeinträchtigt, wenn der Vorfall Stunden oder Tage ungelöst bleibt? Beschreiben Sie, welche Daten von Personen, die den Vorfall melden, erfasst werden müssen, legen Sie fest, ab welchem Schweregrad der Vorfall an das gesamte Team eskaliert werden muss, und dokumentieren Sie, wann andere betroffene Parteien wie Angestellte und Kunden benachrichtigt werden müssen.
Disaster Recovery testen
Sobald das Gesamtkonzept für Ihren Vorfallreaktionsplan erstellt, dokumentiert und von den wichtigsten Stakeholdern genehmigt wurde, können Sie mit dem regelmässigen Testen des DR-Plans beginnen. Das beinhaltet folgende Schritte:
1. Ermitteln Sie alle in Ihrer DR-Lösung bereits integrierten Testtools und schulen Sie die technischen Fachkräfte Ihres Teams in diesen Tools. Im Idealfall können Sie mit Ihrer Lösung jederzeit und von jedem beliebigen Snapshot der Applikationen und Daten, die Sie in die Cloud replizieren, isolierte On-Demand-Tests durchführen, die den normalen Betrieb nicht beeinträchtigen. Wenn Ihre DR-Lösung keine integrierten Testfunktionen enthält, müssen Sie möglicherweise in Tools von Drittanbietern investieren und Ihr Personal in diesen Tools schulen.
2. Planen Sie regelmässige Tests von DR-Failover- und -Failback-Szenarien gemäss dem Vorfallreaktionsplan. Auf diese Weise gewöhnen sich Ihre Angestellten an die Schritte, die sie unternehmen müssen, um den Geschäftsbetrieb in Stresssituationen wiederherzustellen. Ausserdem wird sichergestellt, dass der Plan bei Technologie-, Personal- und Prozessveränderungen im Unternehmen sowie bei neuen externen Entwicklungen, wie zum Beispiel neuartigen Cyberbedrohungen, auf dem neuesten Stand bleibt. Testen Sie den Plan mindestens einmal pro Jahr (häufiger ist besser) und nach jedem grösseren Vorfall.
3. Informieren Sie die Angestellten und andere betroffene Parteien im Voraus über jeden DR-Live-Test. Die Planung solcher Tests kann herausfordernd sein und viele Unternehmen nutzen dafür Wochenenden oder Feiertage. Sie sind jedoch der sicherste Weg, um verlässliche Reaktionen auf echte Vorfälle zu entwickeln und Schwachstellen in Fähigkeiten, Tools und im Plan selbst zu erkennen. Testen Sie zuerst weniger kritische Systeme. Wenn diese Tests reibungslos verlaufen, können Sie anschliessend die kritischeren Systeme testen.
4. Beobachten Sie, wie die Failover- und Failback-Operationen im DR-Test im Vergleich zu den RPOs und RTOs performen. Sammeln Sie das Feedback aller am Testprozess beteiligten Personen, vergleichen Sie die Testergebnisse mit Ihren Erwartungen und passen Sie den Plan bei Bedarf an, um etwaige Schwachstellen zu beseitigen. Teilen Sie die Dokumentation Ihrer Ergebnisse und Analysen mit der Geschäftsführung und anderen Interessengruppen.
5. Üben Sie zwischen den Live-Tests in fiktiven Rollenspielen, wie die Teammitglieder auf verschiedene DR-Szenarien reagieren würden. Diese Übungen sind zwar weniger effektiv als Live-Tests, aber sie stören den Betrieb nicht, sind kostengünstig und bergen ein vergleichsweise geringes Risiko. Das ideale Testkonzept umfasst sowohl Live-Simulationen als auch fiktive Übungen.
Die alte Risikomanagement-Weisheit, dass Unternehmen Katastrophen nicht als blosse Möglichkeit, sondern vielmehr als unvermeidlich betrachten müssen, trifft 2024 mehr denn je zu. Ein zuverlässiger Plan und die Durchführung regelmässiger DR-Tests sind zwei der besten Mittel, um die Folgen von immer wahrscheinlicheren und kostspieliger werdenden Vorfällen abzumildern. DR-Übungen fördern nicht zuletzt auch das Sicherheitsbewusstsein der Angestellten, was in einer sich ständig weiterentwickelnden Bedrohungslandschaft ein Wettbewerbsvorteil sein kann. Jedes Unternehmen kann damit rechnen, früher oder später einen Faustschlag ins Gesicht zu bekommen. Aber mit einem regelmässig getesteten und mindestens einmal im Jahr aktualisierten DR-Plan können Sie verhindern, dass Ihr Unternehmen in einem solchen Fall direkt zu Boden geht.
Der Autor
Quelle: Acronis
Candid Wüest ist Vice President für Produktmanagement bei
Acronis. Er hat an der ETH in Zürich studiert und verfügt über jahrelange Erfahrung in der IT-Security-Branche. Seit Anfang 2020 arbeitet er für den Backup-Spezialisten, zuerst im Research-Bereich, und seit vier Monaten nun in neuer Rolle im Product Management.