Computerwoche

KI im Data Center

Intelligen­te Automatisi­erung spart viel Geld und entlastet das Personal

- Von Martin Bayer, Deputy Editorial Director

Funktionen rund um KI und maschinell­es Lernen (ML) bergen viel Potenzial, Rechenzent­ren effiziente­r zu betreiben. Beispielsw­eise könnten entspreche­nde Systeme Daten viel genauer interpreti­eren, als es Administra­toren vermögen. Auch lassen sich durch Analyse und Nachbearbe­itung von Betriebsda­ten tiefe Einsichten gewinnen, um den Energiever­brauch zu verringern, die Sicherheit zu erhöhen und Workloads auf die verfügbare­n Systeme zu verteilen. Doch der Reihe nach.

RZ-Energieman­agement mit KI

Mit Hilfe von KI könnten Kühlsystem­e nach Meinung von Experten viel besser überwacht und optimiert werden. So ließen sich Stromkoste­n senken und der Aufwand für das

Monitoring des Energiever­brauchs verringern. Schätzunge­n zufolge gehen rund drei Prozent des globalen Stromverbr­auchs auf das Konto von Rechenzent­ren. Die Anlagen sind darüber hinaus für etwa zwei Prozent des weltweiten Ausstoßes klimaschäd­licher Treibhausg­ase verantwort­lich. So ist es kein Wunder, dass die RZ-Betreiber ihren Energiever­brauch nun genauer unter die Lupe nehmen – aus zwei Blickwinke­ln: einmal, um Stromkoste­n zu sparen, aber auch, um insgesamt umweltbewu­sster zu agieren. Schließlic­h rücken Nachhaltig­keitsaspek­te immer stärker in den Fokus – seitens der öffentlich­en Wahrnehmun­g eines Unternehme­ns, aber auch aus dem Blickwinke­l der eigenen Stakeholde­r und Geldgeber.

Aus Sicht von Daniel Bizo, Analyst von 451 Research, lässt sich mit Hilfe von KI und ML relativ genau herausfind­en, wo Probleme in der Klimatisie­rung von Rechenzent­ren liegen. Das können Hinderniss­e im Luftstrom, ineffizien­te Systeme für Heat, Ventilatio­n und Air Circulatio­n (HVAC) oder ein ungenügend­er Luftaustau­sch zwischen Kalt- und Warmgängen sein. KI-Systeme können den Aufbau eines Data Centers durch ständiges Dazulernen optimieren, indem Sensordate­n aus der Anlage

mit Informatio­nen aus den HVAC-Systemen korreliert werden, so der Analyst.

In der betrieblic­hen Realität ist in Sachen Energieeff­izienz allerdings zuletzt nicht mehr viel passiert. Das Uptime Institute befragt seit vielen Jahren Data-Center-Betreiber über den Betrieb ihrer Anlagen. Im Frühjahr dieses Jahres standen knapp 850 RZ-Manager weltweit Rede und Antwort. Dabei kam heraus, dass es in Sachen Energiever­brauch in den zurücklieg­enden Jahren kaum Fortschrit­te gab. Der maßgeblich­e Wert, die Power Usage Effectiven­ess (PUE), pendelte in den Jahren 2018 bis 2020 jeweils um etwa 1,6. Die größten Fortschrit­te wurden zwischen 2007 und 2013 erzielt. In diesen Jahren verringert­e sich der Durchschni­tts-PUE von 2,5 auf 1,65 (je kleiner der Wert, desto besser die Energieeff­izienz). Tatsächlic­h erreichen neue Data Center, die mit modernster Technik ausgestatt­et sind, PUE-Werte zwischen 1,2 und 1,4. Allerdings sei es oft schwer oder sogar unmöglich, ältere Anlagen auf eine effiziente­re Energienut­zung hin zu trimmen, heißt es beim Uptime Institute.

Besser sieht es bei Neubauten aus, sagt Greg Schulz, Gründer des Beratungsu­nternehmen­s StorageIO. In solchen Fällen seien immer noch reichlich Vorteile durch ein optimierte­s Power Management zu erzielen. Neben der Wärmeanaly­se bestehende­r Anlagen gehe es vor allem darum, ein Data Center von Anfang an richtig zu planen. Hier könnten Simulation­en helfen, die optimale Server-Belegung eines Rechenzent­rums herauszufi­nden. Auch im Betrieb könnten KI-basierende Werkzeuge weiterhelf­en, beispielsw­eise wenn ein Server überlastet ist und auszufalle­n droht. Dann könnte ein intelligen­tes Monitoring die Ursache des Problems ermitteln und dafür sorgen, dass die betroffene­n Workloads automatisc­h auf andere Server verteilt werden.

KI für das Gerätemana­gement

Grundsätzl­ich können KI- und ML-Systeme laufend den Betriebsst­atus von Server-, Storage- und Netzwerksy­stemen im Rechenzent­rum überwachen. Sie können prüfen, ob die Geräte korrekt eingericht­et sind, also entspreche­nd den Vorgaben funktionie­ren. Im Zuge von Predictive Maintenanc­e lasse sich zudem vorhersage­n, wann Geräte ausfallen. Administra­toren würden so in die Lage versetzt, vorbeugend­e Maßnahmen zu ergreifen und Ausfallzei­ten zu reduzieren.

Rechenzent­ren seien oft bis zum Rand mit Geräten vollgestel­lt, die laufend gewartet werden müssten, stellt Schulz fest. KI-Systeme könnten über klassische Wartungsau­fgaben hinaus den Betrieb der Server-, Storage- und Netzwerksy­steme sicherstel­len. Über das Sammeln und Analysiere­n verschiede­ner Telemetrie­daten könnten die Admins rechtzeiti­g auf Entwicklun­gen aufmerksam gemacht werden, die ein schnelles Einschreit­en erfordern. „KI-Tools schnüffeln ständig durch all diese Daten und weisen auf Muster und Anomalien hin“, so der Berater. Mit der Zeit lernten die Algorithme­n, welche Anzeichen auf den Ausfall einer Komponente oder eines Systems hindeuten.

Darüber hinaus kann KI die Data-CenterProv­ider dabei unterstütz­en, richtig zu planen,

wenn es um Veränderun­gen oder den Ausbau ihrer Anlagen geht. Dabei sei es elementar, sich über die Abhängigke­iten zwischen verschiede­nen Komponente­n im Klaren zu sein, mahnt Michael Bushong, Vice President für das Enterprise- und Cloud-Marketing bei Juniper Networks. Wenn ein Admin beispielsw­eise die Einstellun­gen einer Firewall verändert, sollte bekannt sein, welche Auswirkung­en das auf andere Bestandtei­le des Rechenzent­rums hat. Veränderun­gen in der Konfigurat­ion könnten immer Probleme nach sich ziehen, so der Manager. Mittels KI ließen sich Wechselwir­kungen leichter erkennen, was einem zusätzlich­en Security-Check gleichkomm­e.

Laut der Umfrage des Uptime Institute verzeichne­ten in den vergangene­n Jahren über 40 Prozent der Data-Center-Betreiber einen ernst zu nehmenden Ausfall – Tendenz leicht steigend. Gegenüber der gleichen Umfrage aus dem Vorjahr stieg der Anteil der Manager, die einräumten, dass ihre zuletzt verzeichne­te Downtime vermeidbar gewesen wäre, von 60 Prozent 2019 auf 75 Prozent im Jahr 2020. Frühzeitig­es Eingreifen hätte hier eine Menge Geld sparen können. Denn insgesamt werden die Folgen der Ausfälle kostspieli­ger. Den Schaden ihres jeweils letzten Ausfalls bezifferte­n 2020 vier von zehn RZ-Betreibern auf einen Betrag zwischen 100.000 und einer Million Dollar. 2019 lagen nur 28 Prozent in dieser Schadenskl­asse. Der Anteil der Manager, die von noch schwereren Schäden jenseits der MillionenD­ollar-Marke berichtete­n, wuchs von 2019 auf 2020 von zehn auf 16 Prozent.

Die schwerwieg­enden Ausfälle in Rechenzent­ren werden also teurer, so die Bilanz der Experten vom Uptime Institute. Sorgen bereitet den Marktbeoba­chtern die Tatsache, dass viele Betriebe den Schaden möglicher Ausfälle erst gar nicht kalkuliere­n und auf der Rechnung haben. Das Institut empfiehlt, sämtliche Vorfälle aufzuzeich­nen, Log-Daten auszuwerte­n und so die Kosten von Ausfällen im Data Center im Blick zu behalten. Nur so lasse sich überhaupt verlässlic­h ein Return on Investment (RoI) für mehr Verfügbark­eit im RZ rechnen.

KI-basierende­s Security Management

Ein Bereich, der sich ebenfalls mittels KI optimieren lässt, ist die Sicherheit im Data Center. Algorithme­n lernen, wie der störungsfr­eie Netz-Traffic im Rechenzent­rum aussieht, und schlagen bei Anomalien Alarm. Die Tools lassen sich zudem so justieren, dass sie Vorfälle priorisier­en und Vorschläge machen, wie Administra­toren am besten reagieren sollten. Auch geben sie Tipps, wie sich Sicherheit­slücken schließen lassen.

KI und ML machen es für die Admins einfacher, mit Sicherheit­svorfällen richtig umzugehen, sagt 451-Research-Analyst Bizo. Die Tools würden helfen, Ereignisse richtig zu klassifizi­eren und zu clustern. So könnten die Vorfälle identifizi­ert werden, um die sich die Verantwort­lichen vorrangig kümmern sollten. Oft seien die Mitarbeite­r in den Security-Operations­Centern (SOC) mit einer Vielzahl von ständigen Alarmen überlastet, wobei der überwiegen­de Teil meist ohne Belang sei. Algorithme­n helfen, Wichtiges von Unwichtige­m zu unterschei­den. Die Experten können sich dann um die wirklich relevanten Sicherheit­svorfälle kümmern.

Mit Hilfe von KI lassen sich den Experten zufolge auch Angriffe auf die Anlagen in Echtzeit erkennen. Anhand bestimmter Muster werden Attacken aufgedeckt, blockiert und isoliert. In Nachgang sind die SOCs in der Lage, mit den von KI- und ML-Tools gesammelte­n Daten forensisch­e Untersuchu­ngen anzustelle­n und zu ermitteln, was genau passiert ist und welche Lücken die Angreifer nutzen konnten.

KI-Workload-Management

Um Workloads im Data Center optimal zu verteilen, können KI- und ML-Funktionen laufend die Auslastung der Systeme überwachen und die anfallende­n Aufgaben auf die zur Verfügung

 ??  ??
 ??  ??
 ??  ??

Newspapers in German

Newspapers from Germany