KI im Data Center
Intelligente Automatisierung spart viel Geld und entlastet das Personal
Funktionen rund um KI und maschinelles Lernen (ML) bergen viel Potenzial, Rechenzentren effizienter zu betreiben. Beispielsweise könnten entsprechende Systeme Daten viel genauer interpretieren, als es Administratoren vermögen. Auch lassen sich durch Analyse und Nachbearbeitung von Betriebsdaten tiefe Einsichten gewinnen, um den Energieverbrauch zu verringern, die Sicherheit zu erhöhen und Workloads auf die verfügbaren Systeme zu verteilen. Doch der Reihe nach.
RZ-Energiemanagement mit KI
Mit Hilfe von KI könnten Kühlsysteme nach Meinung von Experten viel besser überwacht und optimiert werden. So ließen sich Stromkosten senken und der Aufwand für das
Monitoring des Energieverbrauchs verringern. Schätzungen zufolge gehen rund drei Prozent des globalen Stromverbrauchs auf das Konto von Rechenzentren. Die Anlagen sind darüber hinaus für etwa zwei Prozent des weltweiten Ausstoßes klimaschädlicher Treibhausgase verantwortlich. So ist es kein Wunder, dass die RZ-Betreiber ihren Energieverbrauch nun genauer unter die Lupe nehmen – aus zwei Blickwinkeln: einmal, um Stromkosten zu sparen, aber auch, um insgesamt umweltbewusster zu agieren. Schließlich rücken Nachhaltigkeitsaspekte immer stärker in den Fokus – seitens der öffentlichen Wahrnehmung eines Unternehmens, aber auch aus dem Blickwinkel der eigenen Stakeholder und Geldgeber.
Aus Sicht von Daniel Bizo, Analyst von 451 Research, lässt sich mit Hilfe von KI und ML relativ genau herausfinden, wo Probleme in der Klimatisierung von Rechenzentren liegen. Das können Hindernisse im Luftstrom, ineffiziente Systeme für Heat, Ventilation und Air Circulation (HVAC) oder ein ungenügender Luftaustausch zwischen Kalt- und Warmgängen sein. KI-Systeme können den Aufbau eines Data Centers durch ständiges Dazulernen optimieren, indem Sensordaten aus der Anlage
mit Informationen aus den HVAC-Systemen korreliert werden, so der Analyst.
In der betrieblichen Realität ist in Sachen Energieeffizienz allerdings zuletzt nicht mehr viel passiert. Das Uptime Institute befragt seit vielen Jahren Data-Center-Betreiber über den Betrieb ihrer Anlagen. Im Frühjahr dieses Jahres standen knapp 850 RZ-Manager weltweit Rede und Antwort. Dabei kam heraus, dass es in Sachen Energieverbrauch in den zurückliegenden Jahren kaum Fortschritte gab. Der maßgebliche Wert, die Power Usage Effectiveness (PUE), pendelte in den Jahren 2018 bis 2020 jeweils um etwa 1,6. Die größten Fortschritte wurden zwischen 2007 und 2013 erzielt. In diesen Jahren verringerte sich der Durchschnitts-PUE von 2,5 auf 1,65 (je kleiner der Wert, desto besser die Energieeffizienz). Tatsächlich erreichen neue Data Center, die mit modernster Technik ausgestattet sind, PUE-Werte zwischen 1,2 und 1,4. Allerdings sei es oft schwer oder sogar unmöglich, ältere Anlagen auf eine effizientere Energienutzung hin zu trimmen, heißt es beim Uptime Institute.
Besser sieht es bei Neubauten aus, sagt Greg Schulz, Gründer des Beratungsunternehmens StorageIO. In solchen Fällen seien immer noch reichlich Vorteile durch ein optimiertes Power Management zu erzielen. Neben der Wärmeanalyse bestehender Anlagen gehe es vor allem darum, ein Data Center von Anfang an richtig zu planen. Hier könnten Simulationen helfen, die optimale Server-Belegung eines Rechenzentrums herauszufinden. Auch im Betrieb könnten KI-basierende Werkzeuge weiterhelfen, beispielsweise wenn ein Server überlastet ist und auszufallen droht. Dann könnte ein intelligentes Monitoring die Ursache des Problems ermitteln und dafür sorgen, dass die betroffenen Workloads automatisch auf andere Server verteilt werden.
KI für das Gerätemanagement
Grundsätzlich können KI- und ML-Systeme laufend den Betriebsstatus von Server-, Storage- und Netzwerksystemen im Rechenzentrum überwachen. Sie können prüfen, ob die Geräte korrekt eingerichtet sind, also entsprechend den Vorgaben funktionieren. Im Zuge von Predictive Maintenance lasse sich zudem vorhersagen, wann Geräte ausfallen. Administratoren würden so in die Lage versetzt, vorbeugende Maßnahmen zu ergreifen und Ausfallzeiten zu reduzieren.
Rechenzentren seien oft bis zum Rand mit Geräten vollgestellt, die laufend gewartet werden müssten, stellt Schulz fest. KI-Systeme könnten über klassische Wartungsaufgaben hinaus den Betrieb der Server-, Storage- und Netzwerksysteme sicherstellen. Über das Sammeln und Analysieren verschiedener Telemetriedaten könnten die Admins rechtzeitig auf Entwicklungen aufmerksam gemacht werden, die ein schnelles Einschreiten erfordern. „KI-Tools schnüffeln ständig durch all diese Daten und weisen auf Muster und Anomalien hin“, so der Berater. Mit der Zeit lernten die Algorithmen, welche Anzeichen auf den Ausfall einer Komponente oder eines Systems hindeuten.
Darüber hinaus kann KI die Data-CenterProvider dabei unterstützen, richtig zu planen,
wenn es um Veränderungen oder den Ausbau ihrer Anlagen geht. Dabei sei es elementar, sich über die Abhängigkeiten zwischen verschiedenen Komponenten im Klaren zu sein, mahnt Michael Bushong, Vice President für das Enterprise- und Cloud-Marketing bei Juniper Networks. Wenn ein Admin beispielsweise die Einstellungen einer Firewall verändert, sollte bekannt sein, welche Auswirkungen das auf andere Bestandteile des Rechenzentrums hat. Veränderungen in der Konfiguration könnten immer Probleme nach sich ziehen, so der Manager. Mittels KI ließen sich Wechselwirkungen leichter erkennen, was einem zusätzlichen Security-Check gleichkomme.
Laut der Umfrage des Uptime Institute verzeichneten in den vergangenen Jahren über 40 Prozent der Data-Center-Betreiber einen ernst zu nehmenden Ausfall – Tendenz leicht steigend. Gegenüber der gleichen Umfrage aus dem Vorjahr stieg der Anteil der Manager, die einräumten, dass ihre zuletzt verzeichnete Downtime vermeidbar gewesen wäre, von 60 Prozent 2019 auf 75 Prozent im Jahr 2020. Frühzeitiges Eingreifen hätte hier eine Menge Geld sparen können. Denn insgesamt werden die Folgen der Ausfälle kostspieliger. Den Schaden ihres jeweils letzten Ausfalls bezifferten 2020 vier von zehn RZ-Betreibern auf einen Betrag zwischen 100.000 und einer Million Dollar. 2019 lagen nur 28 Prozent in dieser Schadensklasse. Der Anteil der Manager, die von noch schwereren Schäden jenseits der MillionenDollar-Marke berichteten, wuchs von 2019 auf 2020 von zehn auf 16 Prozent.
Die schwerwiegenden Ausfälle in Rechenzentren werden also teurer, so die Bilanz der Experten vom Uptime Institute. Sorgen bereitet den Marktbeobachtern die Tatsache, dass viele Betriebe den Schaden möglicher Ausfälle erst gar nicht kalkulieren und auf der Rechnung haben. Das Institut empfiehlt, sämtliche Vorfälle aufzuzeichnen, Log-Daten auszuwerten und so die Kosten von Ausfällen im Data Center im Blick zu behalten. Nur so lasse sich überhaupt verlässlich ein Return on Investment (RoI) für mehr Verfügbarkeit im RZ rechnen.
KI-basierendes Security Management
Ein Bereich, der sich ebenfalls mittels KI optimieren lässt, ist die Sicherheit im Data Center. Algorithmen lernen, wie der störungsfreie Netz-Traffic im Rechenzentrum aussieht, und schlagen bei Anomalien Alarm. Die Tools lassen sich zudem so justieren, dass sie Vorfälle priorisieren und Vorschläge machen, wie Administratoren am besten reagieren sollten. Auch geben sie Tipps, wie sich Sicherheitslücken schließen lassen.
KI und ML machen es für die Admins einfacher, mit Sicherheitsvorfällen richtig umzugehen, sagt 451-Research-Analyst Bizo. Die Tools würden helfen, Ereignisse richtig zu klassifizieren und zu clustern. So könnten die Vorfälle identifiziert werden, um die sich die Verantwortlichen vorrangig kümmern sollten. Oft seien die Mitarbeiter in den Security-OperationsCentern (SOC) mit einer Vielzahl von ständigen Alarmen überlastet, wobei der überwiegende Teil meist ohne Belang sei. Algorithmen helfen, Wichtiges von Unwichtigem zu unterscheiden. Die Experten können sich dann um die wirklich relevanten Sicherheitsvorfälle kümmern.
Mit Hilfe von KI lassen sich den Experten zufolge auch Angriffe auf die Anlagen in Echtzeit erkennen. Anhand bestimmter Muster werden Attacken aufgedeckt, blockiert und isoliert. In Nachgang sind die SOCs in der Lage, mit den von KI- und ML-Tools gesammelten Daten forensische Untersuchungen anzustellen und zu ermitteln, was genau passiert ist und welche Lücken die Angreifer nutzen konnten.
KI-Workload-Management
Um Workloads im Data Center optimal zu verteilen, können KI- und ML-Funktionen laufend die Auslastung der Systeme überwachen und die anfallenden Aufgaben auf die zur Verfügung