Disaster-Recovery-Tests
Nachdem Sie einen Notfallwiederherstellungsplan erstellt haben, sollten Sie diesen Plan regelmäßig testen. Sie können vermeiden, Fehler zu finden, wenn Sie mit einer tatsächlichen Katastrophe konfrontiert werden. Testen hilft sicherzustellen, dass der Plan funktioniert und das gewünschte Ergebnis erzielt. Wenn der Plan beim Testen nicht funktioniert, können Sie die notwendigen Änderungen vornehmen. Durch regelmäßige Tests wird sichergestellt, dass alle Änderungen in der Arbeitsumgebung erfasst und gegebenenfalls Anpassungen vorgenommen werden.
Um Ihren Plan zu überprüfen, sollten Sie verschiedene Arten von Disaster-Recovery-Tests durchführen:
- DR-Trockentest
- DR-Simulation
- Umschalten
DR-Trockentest
Ein Trockentest ist ein papierbasierter Übungslauf Ihres DR-Plans. Bei einem Trockentest führen Sie keine Wiederherstellung durch, aber Sie überprüfen, ob Ihr Plan keine offensichtlichen Lücken aufweist. Der Trockentest hilft zum Beispiel sicherzustellen, dass:
- sie haben das richtige Personal dafür
- backups vorhanden und verfügbar sind
- die Kommunikationskanäle zwischen den Mitarbeitern funktionieren
- es gibt keine fehlenden Schritte in den DR-Runbooks
- übergaben zwischen Teams funktionieren effizient
Ein DR-Trockentest erfordert den gleichen Aufwand an Fähigkeiten und Personal wie jeder andere Test. Da keine tatsächlichen Wiederherstellungsmaßnahmen durchgeführt werden, ist diese Art von Test schneller und wird daher normalerweise mit höherer Frequenz als die anderen Testarten durchgeführt. Sie können wählen, ob Sie den Plan in seiner Gesamtheit durchlaufen oder einzelne Teile und Dienste darin testen wollen.
DR-Simulation
Die DR-Simulation ist eine Möglichkeit, die Notfall-Runbooks zu verifizieren oder zu prüfen und die von der Lösung bereitgestellten Recovery Time ObjectivesIn der Notfallwiederherstellungsplanung die Zeitspanne, die ein Geschäftsprozess nach einem Notfall benötigt, um wiederhergestellt zu werden. (RTO) und Recovery Point ObjectivesBei der Planung der Notfallwiederherstellung wird die Zeit, in der Daten wiederhergestellt werden, in Zeit gemessen (Sekunden, Minuten, Stunden), beginnend mit der wiederhergestellten Instanz und endend am Punkt des Notfalls. (RPO) zu überprüfen, indem die Bedingungen eines realen Notfalls und die Wiederherstellung von Daten simuliert werden.
Eine DR-Simulation erfordert eine sorgfältige Planung, da Sie potenzielle Unterbrechungen der Datenreplikation aus der primären Region einführen, während Sie gleichzeitig Auswirkungen auf die Produktions-Workloads vermeiden. Während Sie die DR-Umgebung testen, steht sie möglicherweise vorübergehend nicht für die tatsächliche Wiederherstellung zur Verfügung. Dieses Risiko hängt von den spezifischen Cloud-Diensten und deren Einsatz ab. Bei einigen Diensten ist eine gleichzeitige Prüfung und Verfügbarkeit möglich, bei anderen nicht.
Eine DR-Simulation erstellt eine temporäre Kopie Ihrer Produktionsumgebung in der vorgesehenen DR-Region zu Test- und Validierungszwecken. Nach Beendigung der Simulation wird die Testumgebung gelöscht oder zurückgesetzt, und alle während des Tests vorgenommenen Änderungen werden verworfen, während die primäre Produktionsumgebung normal weiterläuft.
Umschalten
Bei der Umstellung wird Ihre Produktionsumgebung von einer Region auf eine andere umgestellt. Mit dieser Methode lässt sich die Fähigkeit, die Produktion über einen längeren Zeitraum in einer alternativen Region zu betreiben und aufrechtzuerhalten, überprüfen und kontrollieren. Der Produktionsbetrieb wird in der ersten Region ordnungsgemäß gestoppt, auf die zweite Region umgestellt und nach einer eventuell erforderlichen Datenwiederherstellung wieder aufgenommen.
Nachdem Sie überprüft haben, dass die zweite Region wie erwartet funktioniert, können Sie die Produktionsaktivitäten wieder aufnehmen und die Datenreplikation so konfigurieren, dass die ursprüngliche Region zur neuen sekundären Region wird. Ihre Produktionsumgebung wird weiterhin von diesem Standort aus betrieben, bis Sie sich entscheiden, wieder zurück zu wechseln.
Häufigkeit der DR-Tests
Wie oft Sie Ihren Notfallplan testen, hängt von vielen Faktoren ab, u. a. davon, was durch die Einhaltung gesetzlicher Vorschriften vorgeschrieben ist. Wenn die Einhaltung der Vorschriften kein Problem darstellt, sollten Sie mindestens einmal im Jahr einen vollständigen DR-Test durchführen und die Ergebnisse zur Überprüfung durch den Prüfer dokumentieren. Es ist eine gute Praxis, das ganze Jahr über kleinere Tests durchzuführen, um die Bereitschaft sicherzustellen.
Berücksichtigen Sie die folgenden Fragen und passen Sie Ihre Testhäufigkeit an:
- Wie dynamisch ist meine Arbeitsbelastung?
- Je mehr sich Ihre Arbeitsbelastung ändert, desto häufiger müssen Sie eine Art von DR-Test durchführen. Auf diese Weise können Sie überprüfen, ob die Änderungen Ihre Fähigkeit zur Wiederherstellung nicht beeinträchtigen. Zu den Änderungen können neue Abhängigkeiten, andere Cloud-Dienste, Infrastrukturänderungen und vieles mehr gehören. Wachsende Datensätze brauchen länger, um wiederhergestellt zu werden, was sich auf Ihre Fähigkeit auswirken kann, eine bestimmte RTO einzuhalten.
- Wie dynamisch ist meine Personalbesetzung?
- Sie können auch die Personalfluktuation bei der Häufigkeit der Tests berücksichtigen. Wenn die Mitarbeiter, die die Wiederherstellung durchführen, wechseln, stellen Sie sicher, dass die neuen Teammitglieder verstehen, wie DR funktioniert und welche Rolle sie im DR-Plan spielen. Wenn Sie mehrere neue Teammitglieder haben, die unsicher oder mit DR-Tests nicht vertraut sind, erhöhen Sie das Risiko für Ihren Wiederherstellungsplan.
Worauf sollten sich meine Tests sonst noch konzentrieren?
Das Hauptziel eines Disaster-Recovery-Tests besteht darin, zu bestätigen, dass Sie Arbeitslasten erfolgreich wiederherstellen können. Achten Sie jedoch darauf, dass auch die folgenden Punkte gut funktionieren:
- Schlüsselpersonal: Der Notfallplan sollte die Mitarbeiter, die für eine erfolgreiche Wiederherstellung benötigt werden, und ihre Aufgaben beschreiben. Überlegen Sie, ob Sie während der Tests mehr Personen oder Rollen benötigen oder ob einige überflüssig waren und wie gut die Personen ihre Rolle erfüllen konnten.
- Kommunikation: Der Notfallplan muss klar darlegen, wie im Katastrophenfall kommuniziert werden soll. Überlegen Sie, wie gut die Kommunikation zwischen den Teilnehmern, einschließlich der verwendeten Kommunikationskanäle, während der Tests funktioniert hat.
- Dokumentierte Abhängigkeiten: In Ihrem DR-Plan sind wahrscheinlich Abhängigkeiten beschrieben. Prüfen Sie, ob diese gültig sind und den Wiederherstellungsprozess nicht behindern. Stellen Sie gleichzeitig sicher, dass alle neuen Abhängigkeiten erfasst werden.
- Sonstige Dokumentation: Runbooks können zur Durchführung der Wiederherstellung verwendet werden, daher ist es wichtig zu wissen, wie genau und wie effektiv sie sind. Eine unzureichende Dokumentation von Schritten kann zu Verzögerungen führen, während zu viele oder nicht relevante Details den gleichen Effekt haben können. Lassen Sie die Schritte von einer anderen Person als dem Autor überprüfen, um sicherzustellen, dass sie klar sind. Auf diese Weise ist der Prozess auch dann nutzbar, wenn der Autor während einer Katastrophe nicht verfügbar ist.
Nach der Prüfung
Halten Sie nach Abschluss eines Tests die Ergebnisse fest, um einen Anhaltspunkt für den nächsten Test zu haben. Wenn Sie das Prüfverfahren später ändern, können Sie die Ergebnisse leicht vergleichen.
Aktualisieren Sie nach jedem Notfallwiederherstellungstest den Plan und die zugehörige Dokumentation auf der Grundlage der Ergebnisse. Ein Notfallplan ist ein lebendiges Dokument, das regelmäßig angepasst werden muss, um wirksam zu bleiben. Nutzen Sie das Feedback der Teilnehmer, um herauszufinden, was gut funktioniert hat und was nicht, und lassen Sie diese Erkenntnisse in zukünftige Tests einfließen. Ziehen Sie bei Bedarf auch weitere Schulungen in Betracht, sei es zur Klärung der Rollen, zur Verbesserung der Kommunikation oder zur Verbesserung der technischen Fähigkeiten.