Fachbeitrag

Managed Full Disaster Recovery Simulation

Uhr
von Michael Tobler, Head of IT Service Management, Uniqconsulting

Ausführliche Disaster-Recovery- und Business-Continuity-Planungen tragen dazu bei, die erfolgsrelevanten Prozesse schnellstmöglich wiederherzustellen und den Schaden durch Ausfallzeiten minimal zu halten. Doch ein Plan, der nie getestet wird, ist eigentlich nur ein Schritt weiter, als überhaupt keinen Plan zu haben.

Ungeplante Serviceausfälle, verursacht durch Naturkatastrophen wie Feuer, Wasser, Ransomware oder weitere kriminelle Cyberattacken, können Unternehmen gänzlich lahmlegen und dadurch massive finanzielle Einbussen und Reputationsschäden verursachen. Statistiken zeigen, dass Unternehmen beträchtliche Ressourcen in die Disaster-Recovery-Planung investieren, aber oft keine regelmässigen Disaster-Recovery-Tests durchführen, um die Richtigkeit des Plans in der Praxis zu überprüfen. Realität ist jedoch, dass ohne gründliche Tests und geübte Routine selbst ein brillanter Plan zum Scheitern verurteilt ist. Die Einsicht in die Notwendigkeit von Investitionen in proaktive und regelmässige DR-Tests, um die Pläne zu valideren und zu aktualisieren, gründet meist in schmerzlichen Erfahrungen nach erfolgreichem Ransomware-Angriff oder Totalausfall.

Ein regelmässiges Testen dieser Szenarien erhöht die Chancen, einen Angriff oder Ausfall unbeschadet zu überleben

Eine Business-Continuity-Planung definiert die Verantwortlichkeiten und regelt die Prozesse und die Kommunikation, die eine Organisation befolgen muss, um die Weiterführung von erfolgsrelevanten Geschäftsprozessen im Falle von Cyberattacken, Ransomware oder bei einem durch eine Naturgewalt verursach-ten Serviceausfall zu gewährleisten. Die Disaster-Recovery-Planung beschreibt dabei den Teilbereich, wie die IT-Services wieder in Betrieb genommen werden können.

Obschon sich die Art der Angriffe ständig weiterentwickelt und deren Anzahl rapide steigt, fühlen sich viele Unternehmen gewappnet für den Ernstfall, obwohl sie ihre Disaster-Recovery-Pläne nicht oder unregelmässig testen.

Effektive Disaster-Recovery-Tests sind störend und können teuer sein

Je höher der Digitalisierungsgrad von Unternehmen ist und je stärker die Organisation von digitalen Anwendungen abhängig ist, desto grösser sind die Folgen eines Ausfalls. Um der Organisation während eines Desasters die besten Chancen auf Erfolg zu geben, müssen alle Mitarbeitenden und Dienstleister, die für die Durchführung eines Teils des Plans verantwortlich sind, den Plan routiniert ausführen und die nötigen Massnahmen umsetzen. Das Fehlen eines geprüften Plans bedeutet, dass die Organisation länger als nötig braucht, um sich von einem Ereignis oder Zwischenfall zu erholen. Daher ist es unabdingbar, geeignete Massnahmen zur schnellen Wiederherstellung regelmässig zu testen, obwohl das Fehlen eines ge-prüften Plans nur im Ernstfall gewichtige Konsequenzen hat.

Cyber Recovery sichert die Hochverfügbarkeit geschäftskritischer Anwendungen und Managed Full Disaster Recovery Simulation sichert die Beständigkeit der Lösung

Die Investition in eine qualitativ hochwertige Backup- und Replikationslösung mit Air-Gap und unveränderbaren Speichertechnologien ermöglicht es, die Verluste zu minimieren und Geschäftskontinuität zu gewährleisten. Doch nur die Durchführung von Managed Full Disaster Recovery Simulations können ein echtes Verständnis der eigenen RTO und RPO vermitteln und helfen, den Plan stets anzupassen.

Durch eine Managed Full Disaster Recovery Simulation beschaffen sich Unternehmen die fehlenden Ressourcen, Kapazitäten und die Möglichkeit, diese ungeliebten Tests von aussen orchestrieren zu lassen.

Phase 1: Plan Review Meeting

Eine Managed Full Disaster Recovery Simulation beginnt mit einer umfangreichen Analyse des aktuellen DR-Plans und der Systemumgebung. Ziel ist es, bei der Überprüfung sämtlicher Punkte bereits veraltete oder fehlende Elemente zu erkennen und diese Lücken zu schliessen.

Phase 2: Tabletop Exercise

Gemeinsam wird ein zu testendes Szenario definiert. Mit sämtlichen Beteiligten wird die Situation Schritt für Schritt durch­gesprochen. Durch das Tabletop Exercise haben Fehlerquellen keine Konsequenzen auf die aktive Systemumgebung. Konsequenzen, die es im Ernstfall zu vermeiden gilt.

Phase 3: Scenario Simulation

Der DR-Plan wird im Rahmen einer Testumgebung ohne Unterbrechung des Produktionsablaufs ausgeführt, dabei werden definierte Wiederherstellungsszenarien geprüft.

Phase 4: Full Disaster Recovery Simulation

Bei einer Full Disaster Recovery Simulation wird das Ausfallszenario imitiert. Der produktive Betrieb wird dabei gänzlich heruntergefahren. Entlang der Prozesse im DR-Plan wird kommuniziert und die Systemlandschaft wird hochgefahren. Im Anschluss werden Services und Applikationen durch die Business User wieder in Betrieb genommen und auf deren Funk­tionalität geprüft. Die vollständige Wiederherstellung der zuvor gesicherten Daten erfolgt aus einem Offsite-Speicher der ICT-Systemlandschaft des Kunden. Nach Abschluss der Full Disaster Recovery Simulation werden die wiederhergestellten Systeme zurückgebaut und der Normalbetrieb wiederaufgenommen.

Step 5: IT Service Continuity Management

Der wohl wichtigste Teil am DR-Test sind die Erkenntnisse. Fehler in der ICT-Systemlandschaft, Kommunikationsschwierigkeiten oder Planabweichungen werden während des Tests laufend dokumentiert und im Review die notwendigen Anpassungen identifiziert. Im Anschluss wird der Disaster-Recovery- und Business-Continuity-Plan angepasst und optimiert.

Das Availability Management sorgt dafür, dass der DR-Plan regelmässig getestet wird

Bei einem Managed-Service-Vertrag definiert der Kunde die geforderte Verfügbarkeit der IT-Dienste. Das Availability Management des Service-Providers definiert, analysiert, plant und verbessert die Verfügbarkeit von IT-Diensten und stellt während der gesamten Lebensdauer der IT-Infrastruktur sicher, dass deren Prozesse, Kapazität und Sicherheit den vereinbarten Zielen entsprechen. Diese ganzheitliche Betrachtung ist erforderlich, da es im IT Service Management unzählige Verfügbarkeitsrisiken gibt, wie unter anderem abgelaufene Zertifikate, schlecht geplante Konfigurationsänderungen etc.

Dank Managed Service im Bereich Availability Management ergeben sich die Vorteile, dass die Verfügbarkeit stets gewährleistet und die Effizienz gesteigert wird. Die interne IT wird entlastet und bei einem drohenden Ausfall oder Incident greift der Partner ein, um den Betrieb geschäftskritischer Anwendungen aufrechtzuerhalten.

Webcode
DPF8_200440