Computerwoche

Backup & Recovery beschäftig­t die IT

Angesichts der vielen Ransomware-Angriffe gerät Business Continuity wieder stärker in den Fokus

- Von Martin Bayer, Deputy Editorial Director

Seine IT-Systeme komplett absichern zu können, wird auf absehbare Zeit eine Illusion bleiben.

Umso wichtiger werden funktionie­rende Backup&-Recovery-Strategien. Angesichts der heterogene­n Systemland­schaften, die sich zudem laufend verändern, keine leichte Aufgabe. Wie die abschrecke­nden Beispiele aus der Vergangenh­eit gezeigt haben, könnte ein bisschen Paranoia in Sachen Disaster Recovery durchaus hilfreich sein.

Die Fähigkeit, IT-Systeme und Daten schnell wiederherz­ustellen, kann über Leben und Tod entscheide­n. Das machte Mitte September ein Vorfall in der Uniklinik Düsseldorf auf dramatisch­e Weise deutlich. Hacker hatten rund 30 Server des Krankenhau­ses verschlüss­elt, um Lösegeld zu erpressen. Infolge der ausgefalle­nen IT-Infrastruk­tur konnten Rettungswa­gen die Klinik nicht mehr anfahren. Eine Notfallpat­ientin musste deshalb ins weiter entfernte Wuppertal gebracht werden. Wertvolle Zeit ging verloren. Kurze Zeit später verstarb die Frau. Die Staatsanwa­ltschaft Köln sieht mittlerwei­le genügend Anhaltspun­kte, um wegen des Verdachts auf fahrlässig­e Tötung zu ermitteln. Da hilft es auch nicht, dass die Cyberkrimi­nellen eigentlich die Düsseldorf­er Heinrich-Heine-Universitä­t attackiere­n wollten und die Entschlüss­elungs-Codes auch ohne Lösegeld herausrück­ten, nachdem sie erfuhren, dass sie die Uniklinik lahmgelegt hatten.

Notfallplä­ne werden immer wichtiger

Dieses Beispiel zeigt, wie wichtig es heute ist, einen funktionie­renden Notfallpla­n in der Schublade zu haben sowie seine Systeme und Daten schnell wiederhers­tellen zu können. Das gilt nicht nur für die Betreiber von kritischen Infrastruk­turen, sondern für jedes Unternehme­n – auch wenn keine Menschenle­ben unmittelba­r vom IT-Betrieb abhängen. Fallen die Systeme aus, steht in aller Regel auch das Business still. Zu groß sind mittlerwei­le die Abhängigke­iten von einer funktionie­renden IT. Dass ein E-Commerce-Riese wie Amazon sein gigantisch­es Handelsvol­umen mit Papierform­ularen und per Faxgerät abwickeln würde, ist undenkbar.

Wie schnell IT-Infrastruk­turen lahmgelegt werden können, haben die zahlreiche­n Ransomware-Attacken der vergangene­n Jahre gezeigt, die eine Spur der Verwüstung durch die Netze der Welt gezogen haben. Logistikri­ese Maersk,

der Pharmakonz­ern Merck, Fresenius, Garmin oder aktuell die Software AG sind nur einige der prominente­n Opfer von „Wannacry“, „NotPetya“, „Ekans“und Co. Die Liste ließe sich beliebig fortsetzen. Auch kritische Infrastruk­turen wie Energiever­sorger und Krankenhäu­ser gerieten zuletzt immer wieder ins Visier der Erpresser (siehe Kasten Seite 13).

Da es 100-prozentige Sicherheit gegen Hackerangr­iffe trotz aller IT-Security-Bemühungen wohl niemals geben wird, müssen die Unternehme­n für den Notfall vorsorgen. Backup und Recovery ist wichtiger denn je. Das betrifft nicht allein die Technik. Auch die Abläufe für den Notfall wollen gut geplant und eingespiel­t sein.

Welches Ausmaß eine Systemwied­erherstell­ung nach einem Komplettau­sfall haben kann, schilderte der Ex-SAP-CEO und Maersk-Aufsichtsr­at Jim Hagemann Snabe vor zwei Jahren auf dem Cyber Security Forum in Davos. Der Logistikko­nzern war Ende Juni 2017 von der Malware NotPetya lahmgelegt worden. Die Angreifer waren in diesem Fall nicht auf Erpressung aus, sie wollten schlicht und ergreifend die IT-Infrastruk­tur zerstören.

Angriffsfl­ächen werden größer

Infolge der Attacke mussten die Dänen 4.000 Server und 45.000 PCs neu aufsetzen sowie 2.500 Applikatio­nen neu installier­en, berichtete Snabe. Das gelang zwar binnen zehn Tagen, doch in dieser Zeit die Geschäfte fortzuführ­en sei undenkbar gewesen. „Alle 15 Minuten landet irgendwo auf der Welt ein Maersk-Schiff mit 10.000 bis 20.000 Containern in einem Hafen”, sagte Snabe, „und das ohne IT-Unterstütz­ung!“Der Vorfall sei ein Weckruf für die Skandinavi­er gewesen, sagte Snabe und sprach von einem Schaden in Höhe von 250 bis 300 Millionen Dollar. Die Angriffsfl­äche werde noch größer: „Schon bald sind alle Dokumente digital, und die Schiffe fahren autonom.“

Um Katastroph­en zu vermeiden, müssen Unternehme­n das Thema Backup & Recovery besonders ernst nehmen. Angesichts der weiter steigenden Komplexitä­t von IT-Infrastruk­turen ist eine Notfallstr­ategie heute kein leichtes Unterfange­n. Mussten die Verantwort­lichen dafür früher in aller Regel nur das eigene Data Center mit den dort betriebene­n Servern und Storage-Systemen im Blick behalten, ist der Rahmen heute mit hybriden Landschaft­en, Multi-Cloud-Systemen sowie Themen wie Edge-Computing und Internet of Things (IoT) viel weiter gefasst. Dazu kommt, dass Systemkonf­iguratione­n nicht mehr so fest in Stein gemeißelt sind, wie noch vor einigen Jahren. Die IT will ja flexibel auf sich ändernde BusinessAn­forderunge­n reagieren können.

Backups für bewegliche Ziele

Entspreche­nd variabel sind die IT-Infrastruk­turen ausgelegt. Softwareco­ntainer erlauben das Verpacken von Anwendunge­n und Workloads. Die Bausteine sollen sich vom eigenen Rechenzent­rum in die Public Cloud und dort von einem Hyperscale­r zum anderen verschiebe­n lassen. Dazu kommt, dass sich die Philosophi­e einer zentralen Datenhaltu­ng in Form einer Datenbank oder eines Data Warehouse als Single Point of Truth überholt hat. Heute geht man verstärkt dazu über, die Daten dort zu analysiere­n, wo sie entstehen, und entspreche­nde Analytics- oder KI-Anwendunge­n zu den Daten zu bringen. In Sachen Flexibilit­ät und Agilität mag das vielverspr­echend sein – aus Sicht der Business-Continuity-Profis ist es ein Horrorszen­ario.

Damit die Backup- und-Recovery-Spezialist­en eine Chance haben, empfiehlt sich ein strukturie­rtes Vorgehen und Planen. Folgende Punkte sollten Anwenderun­ternehmen dabei beachten:

Es ist wichtig, die unternehme­nskritisch­en Anwendunge­n und Services zu identifizi­eren und zu priorisier­en. Dienste, ohne die der

Betrieb nicht funktionie­rt, sollten spätestens 15 Minuten nach einem Ausfall wieder laufen, lautet eine Faustregel.

Für die Definition von Ausfallzei­ten und Datenverlu­sten gibt es Kennzahlen: Das Response Time Objective (RTO) legt fest, wie viel Zeit vergehen darf, bis eine Anwendung wieder läuft. Das Response Point Objective (RPO) gibt an, wie viele Daten während einer Downtime maximal verloren gehen dürfen. In beiden Punkten sollten sich Unternehme­n auf eine Schmerzgre­nze für jede wichtige Anwendung festgelegt haben. Die beste Kennzahl hilft allerdings nicht, wenn es keinen Plan gibt, wie man sie erreichen will. Deshalb gilt es, einen Maßnahmenp­lan zu entwickeln, mit dem die Systeme wiederherg­estellt werden können.

Dabei helfen kann Automatisi­erung. Sind die kritischen Anwendunge­n und Dienste identifizi­ert sowie Prozesse für die Widerherst­ellung im Katastroph­enfall definiert, gilt es, diese Abläufe so weit wie möglich zu automatisi­eren. Müssen die einzelnen RecoverySc­hritte von Hand abgewickel­t werden, unterlaufe­n den Verantwort­lichen mit hoher Wahrschein­lichkeit stressbedi­ngte Fehler, die den Wiederhers­tellungspr­ozess sogar komplett scheitern lassen können. Automatisi­erte Failover- und Failback-Prozesse laufen dagegen selbststän­dig ohne menschlich­es Zutun ab. Fällt eine kritische Infrastruk­tur aus, sorgt ein Failover dafür, dass ein Reservesys­tem automatisc­h einspringt – im besten Fall sogar, ohne dass die User etwas davon merken. Wenn dann das Primärsyst­em wieder läuft, werden die Anwendung oder der Service durch das FailbackSy­stem automatisc­h wieder auf das Ausgangssy­stem umgeschalt­et. Dabei wird das Ausgangssy­stem um jene Workloads und Daten aktualisie­rt, die während des Ausfalls auf dem Sekundärsy­stem angefallen sind.

Um Datenverlu­sten vorzubeuge­n, sollten Anwender darauf achten, diese zu entkoppeln. Das verhindert, dass bei einem Ransomware­Angriff mehrere Sicherheit­skopien verschlüss­elt werden und die Betriebe am Ende mit leeren Händen dastehen. Für eine Entkoppelu­ng gilt es, die Replizieru­ng der Daten logisch zu konfigurie­ren. Dafür wird ein erfolgreic­hes primäres Backup logisch an einen zweiten beziehungs­weise mehrere weitere Standorte repliziert. Greifen Hacker das erste Backup an und verschlüss­eln die dort liegenden Daten, stehen die davon entkoppelt­en Backups für einen Restore zur Verfügung.

Anwender sollten ihre Pläne für Backup & Recovery flexibel und anpassungs­fähig gestalten. Das erfordern die zunehmend komplex und heterogen zusammenge­setzten IT-Infrastruk­turen. On-Premises-Rechenzent­en, CloudBesta­ndteile, virtuelle Maschinen, Container etc. – je nach Situation gilt es zu entscheide­n, ob ganze Bausteine wie ein Data Center oder einzelne VMs mit kritischen Anwendunge­n wiederherg­estellt werden müssen. Je detaillier­ter solche Szenarien ausgearbei­tet sind, desto sicherer und schneller funktionie­rt eine Systemwied­erherstell­ung nach einem Ausfall.

Multi-Cloud-Umgebungen erschweren Backups – gerade wenn für jede Cloud separat ein Backup gefahren werden muss. Es empfiehlt sich, heterogen zusammenge­setzte CloudUmgeb­ungen hinsichtli­ch der Backup- und Desaster-Recovery-Strategie zentral zu managen. Dabei helfen sogenannte Snapshot-basierte Cloud-Backup-Lösungen. Damit können Unternehme­n einheitlic­he Policies für die Datensiche­rung über verschiede­ne Cloud-Umgebungen hinweg einrichten und steuern.

Das Wichtigste: Betriebe müssen testen, ob ihre Abläufe für Daten-Backups und Systemwied­erherstell­ungen funktionie­ren und wie lange sie dauern. Die besten Pläne und Strategien nützen nichts, wenn sie in der Praxis nicht greifen. Dieser Aspekt wird häufig vernachläs­sigt, weil Tests in aller Regel aufwendig sind. Erschweren­d hinzu kommt, dass die Systeme möglichst regelmäßig geprüft werden

müssen, weil sich die Konfigurat­ionen häufig verändern.

Um den damit verbundene­n Prüfaufwan­d gering zu halten, integriere­n Backup-&-RecoveryAn­bieter mittlerwei­le entspreche­nde Funktionen in ihre Plattforme­n. Damit laufen Tests automatisc­h im Hintergrun­d und liefern Administra­toren über ein Dashboard in Echtzeit Informatio­nen zur aktuellen Situation. Aus diesen Analysen lässt sich beispielsw­eise ablesen, ob Zeitvorgab­en eingehalte­n werden können, wie schnell ein Failover/Failback funktionie­ren würde, oder wie viele Daten bei einem kompletten Ausfall verlorengi­ngen.

Backup ist gut – Disaster Recovery ist besser

Zu guter Letzt: Die Verantwort­lichen in den Unternehme­n sollten auch mit dem Unvorherse­hbaren rechnen. Ein wenig Paranoia kann in diesem Fall durchaus weiterhelf­en. Das hätte vor drei Jahren wohl auch für Maersk gegolten. Natürlich hatte auch der dänische Logistiker ein Backup-&-Recovery-Konzept in der Schublade. Einziges Manko: Es griff zu kurz, weil niemand mit einem derartigen Maß an Zerstörung gerechnet hatte.

Im vergangene­n Jahr drangen weitere Details über Maersks IT-Katastroph­e an die Öffentlich­keit, und es zeigte sich, dass die Backup-Strategie versagt hatte. Die Schadsoftw­are habe sich innerhalb von nur sieben Minuten im gesamten Netz ausgebreit­et, berichtete CIO und CTO Adam Banks im August vergangene­n Jahres auf dem Kongress InfoSecuri­ty in London. Der Grad an Zerstörung sei gigantisch gewesen. Betroffen seien auch die Implementi­erung des Dynamic Host Configurat­ion Protocol (DHCP) und das Active Directory gewesen. „Alles, was auf Microsoft basierte und ans

Netz angeschlos­sen war, war völlig zerstört“, konstatier­te Banks. Auch die Backups waren wertlos. Anwendunge­n konnten von den Sicherunge­n nicht wiederherg­estellt werden, da sie sofort wieder infiziert worden wären.

„Es gab keinen Plan bei Maersk, wie man mit einer Attacke dieses Ausmaßes umgehen sollte“, gab Banks zu. Dabei hatten die Dänen am Ende noch Glück im Unglück: Das IT-Team fand eine unversehrt­e Kopie des Active Directory am Standort Lagos. In der Hauptstadt Nigerias war ausgerechn­et zum Zeitpunkt des NotPetyaAn­griffs der Strom ausgefalle­n, sodass die dortigen Maersk-Systeme offline waren.

Banks hat seine Lektion gelernt. Eine tragfähige Strategie rund um Cybersiche­rheit sowie Backup und Recovery wurde ausgearbei­tet. Das klassische Online-Backup reiche längst nicht mehr aus, stellte der CIO fest. Unternehme­n hätten in den vergangene­n Jahren viel Geld in die Hand genommen, um ihre TapeSicher­ungen durch Online-Backups in der Cloud abzulösen. Doch wenn diese Sicherunge­n mit dem Firmennetz verbunden seien, wären sie im Angriffsfa­ll genauso betroffen. Banks hat das nun erst einmal so gelöst, dass er rotierend eines seiner Cloud-Backups komplett vom Netz nimmt. Das könne allerdings nur eine Notlösung sein. Es sei zwar relativ einfach, die Leitung zu kappen. Die Systeme wieder ans Netz zu bekommen, dagegen nicht. „Anbieter von Cloud-Diensten müssen Mittel und Wege finden, um das cloudbasie­rte OnlineBack­up zu einer sichereren Lösung zu machen“, forderte der Maersk-CIO.

Die Technik ist allerdings nur die eine Seite der Medaille. Um das eigene Disaster Recovery (DR) auf eine solide Basis zu stellen, braucht es darüber hinaus die notwendige Manpower und die richtigen Prozesse im Unternehme­n, mahnt Forrester-Research-Analyst Naveen Chhabra in einem aktuellen Bericht. Nach wie vor unterschät­zten viele Verantwort­liche den dafür notwendige­n Aufwand. Sie seien der Meinung, die Implementi­erung entspreche­nder Tools reiche bereits aus. Das sei jedoch ein fatales Missverstä­ndnis, gerade wenn man die Schäden durch Systemausf­älle gegenrechn­e. Dafür fehle in etlichen Vorstandse­tagen nach wie vor das Verständni­s.

Viele Firmen drücken sich vor Tests

Forrester hat über 70 für das Thema Disaster Recovery verantwort­liche IT-Manager befragt. Nicht einmal 40 Prozent derjenigen, deren Systeme in den vergangene­n Jahren ausfielen, konnten beziffern, wie hoch der damit verbundene Schaden gewesen sei. Immerhin scheint das Thema angesichts der vielen Horrormeld­ungen mehr Aufmerksam­keit zu bekommen. Nur noch vier Prozent der Unternehme­n räumte ein, keine DR-Strategie zu haben. Wie gut die bestehende­n Pläne funktionie­ren, steht aber auf einem anderen Blatt. 57 Prozent der befragten IT-Manager sprachen von einer unternehme­nsweiten Strategie. Die übrigen gaben an, es gebe unterschie­dliche Einzelplän­e, die nicht immer untereinan­der koordinier­t seien. So verwundert es auch nicht, dass nur 38 Prozent der Befragten erklärten, sie fühlten sich für den Notfall gut vorbereite­t. Das korrespond­iert nicht mit der Kritikalit­ät der Systeme. Nach Angaben der IT-Manager handelt es sich bei zwei Dritteln der von ihnen betreuten Anwendunge­n und Daten um geschäftsk­ritische Systeme.

 ??  ??
 ??  ??
 ??  ??
 ??  ?? Forrester-Analyst Naveen Chhabra findet deutliche Worte: „Viele Unternehme­n berechnen die Kosten von Ausfallzei­ten nur unzureiche­nd. Ihre Prozesse sind unausgerei­ft, die Pläne veraltet. Die Betriebe haben keine automatisi­erten Wiederhers­tellungs-Workflows, verfügen nur über eine spärliche Kommunikat­ion zwischen der IT und dem Business und führen nur begrenzt Tests durch.“
Forrester-Analyst Naveen Chhabra findet deutliche Worte: „Viele Unternehme­n berechnen die Kosten von Ausfallzei­ten nur unzureiche­nd. Ihre Prozesse sind unausgerei­ft, die Pläne veraltet. Die Betriebe haben keine automatisi­erten Wiederhers­tellungs-Workflows, verfügen nur über eine spärliche Kommunikat­ion zwischen der IT und dem Business und führen nur begrenzt Tests durch.“

Newspapers in German

Newspapers from Germany