Was macht ein IT-Notfallmanager?
Fallen in den Unternehmen IT-Systeme aus, rückt das Incident Management ins Blickfeld. Mario Lohner, Director Cloud bei der Allianz-Tochter Syncier, baute früher Teams für das IT-Notfallmanagement auf.
Fallen in der Firma IT-Systeme aus, rückt das Incident Management ins Blickfeld. Mario Lohner, Director Cloud bei der AllianzTochter Syncier, baute früher Teams für das IT-Notfallmanagement auf.
CW: Was war Ihr spektakulärster Einsatz?
Mario Lohner: Als ich noch in der Automobilzulieferindustrie arbeitete, mussten das ITNotfallteam und ich mit einem Privatflugzeug und dem Equipment unterm Arm eingeflogen werden. Die Produktion war weltweit verteilt, jeder Standort hatte sein Rechenzentrum, seine eigene IT-Infrastruktur, aber oft nicht die IT-Experten, um den kritischen Notfall in den Griff zu bekommen. So war es unsere Aufgabe, mit den Kollegen vor Ort die Störung zu qualifizieren und zu beheben.
CW: Viele Firmen verlagern ihre IT-Systeme in die Cloud. Wird dadurch die Arbeit für IT-Notfallmanager entspannter?
Lohner: Was Störfälle wie Stromausfall im Rechenzentrum betrifft, schon. Diese liegen in der Verantwortung des Cloud-Betreibers, die IT-Experten im Unternehmen haben nicht mehr die volle Kontrolle über die Infrastruktur. Für die Störungsbehebung ist es darum um so wichtiger, dass die IT über ein gutes Wissen über die Cloud-Infrastruktur beziehungsweise über ein sehr gutes Netzwerk zum Cloud-Provider verfügt. Das Spektrum der Cloud-Lösungen ist so groß, dass man ein ganzes Team an Experten braucht. Müssen sehr viele Standorte eines Konzerns mit dem Provider verbunden werden, ist eine umfangreiche Security-Infrastruktur notwendig, die Kunde und Provider gemeinsam aufbauen.
CW: Vor welchen Herausforderungen stehen IT-Notfallmanager?
Lohner: Oft sind Notfallmanager mit einem diffusen, komplexen Fehlerbild konfrontiert. Sie müssen Mitarbeiter aus verschiedenen Domänen, die unterschiedliche Komponenten – Netzwerk, Security, Backend oder Frontend – verantworten, an einen Tisch bringen, sodass
sie gemeinsam auf das Fehlerbild schauen können. Bei einem Major Incident in einem großen Unternehmen können das bis zu 40 Menschen sein, die Hälfte davon ist oft remote zugeschaltet. Je komplexer die IT-Landschaft mit ihren vielen gewachsenen Systemen ist und je mehr Menschen eingebunden sind, desto diffuser gestaltet sich das Fehlerbild. Zudem muss man berücksichtigen, dass nicht alle Systeme einfach abgeschaltet werden können, um Komplexität zu verringern. Eine Lebensversicherung muss beispielsweise den Zyklus von 50 Jahren und mehr abdecken.
CW: Wie stressresistent sollten IT-Notfallmanager sein?
Lohner: Ein Incident Manager muss oft eine Pufferfunktion zwischen Vorständen und Technikern übernehmen. Letzteren muss er den Rücken freihalten, die nötige Ruhe im Team organisieren, aber auch den Ernst der Lage für das Business transparent machen. Dem oft fordernd auftretenden Management muss er erklären, warum das Umfeld so komplex ist. Dafür benötigt er breites IT-Wissen sowie auch ein Grundverständnis für die Unternehmensprozesse, um zu beurteilen, wie sich der Fehler auswirkt. Er sollte zwischen IT und Business übersetzen, in der Hektik eines Störfalls Ruhe und Gelassenheit bewahren.
CW: Wie sollte es um die kommunikativen Fähigkeiten stehen?
Lohner: Idealerweise sollte jeder IT-Notfallmanager klar kommunizieren können, was los ist und eine Prognose für das Lösen einer Störung abgeben können. Es ist besser, die Lage realistisch zu bewerten und mit eher defensiven Aussagen aufzuwarten als zu viel zu versprechen. Kann die Lage nicht bewertet werden, muss man das offen sagen. Auch innerhalb des Incident-Teams, das in der Regel rund um die Uhr im Einsatz ist, ist ein guter Austausch wichtig. So muss etwa die Übergabe zwischen den Schichten passen.
CW: Wie verändert verteiltes Arbeiten den Alltag des Incident Managers?
Lohner: Die Komplexität wird noch höher. In Telefon- und Videokonferenzen können schnell Missverständnisse entstehen, in internationalen Teams kommen oft noch Verständnisschwierigkeiten dazu. Es hilft, im Vorfeld das Vorgehen in Major Incidents zu üben und nicht erst während eines Notfalls lernen zu müssen, wie man als Team funktioniert. Beispielsweise lässt sich der Totalausfall eines Rechenzentrums simulieren. Dann können die Experten üben, wie die Meldekette funktioniert, wie sie untereinander kommunizieren und wie sie ihre Maßnahmen dokumentieren.