Probleme erkennen, bevor sie auftauchen

am 29. März 2019
Künstliche Intelligenz ermöglicht den nächsten Schritt zum autonomen Rechenzentrum. Das Self Driving Data Center erkennt potenzielle Probleme - noch bevor sie eintreten. Davon profitieren besonders Anwender mit hohen Ansprüchen an die Verfügbarkeit.

Analog zu herkömmlichen Autos auf dem Weg zum autonomen "Self Driving Car" entwickeln sich Rechenzentren zusehends zum Self Driving Data Center. Wie Autos, die immer selbstständiger werden und schließlich ohne menschliches Eingreifen fahren sollen, befinden sich Rechenzentren auf einem ähnlichen Weg: Sie erfahren einen immer höheren Automatisierungsgrad - und werden damit immer autonomer und weniger fehleranfällig.

Ermöglicht wird dies durch die Entwicklungen der KI in den letzten Jahren. Die Fortschritte beim Maschinellen Lernen, bei Analytics und Mustererkennung treiben die Automatisierung voran. Weil sich die Methoden und Grundprinzipien der KI unabhängig vom Anwendungsbereich sehr ähneln, können Sie ohne allzu großen Aufwand in verschiedenen Bereichen eingesetzt werden - im Auto ebenso wie im Rechenzentrum.

Der erste Schritt in Richtung Self Driving Data Center ist, KI zur vorausschauenden Wartung einzusetzen. Im Rechenzentrum bedeutet das: Eine KI-Komponente erkennt, wann Probleme auftauchen. Dazu erfasst sie Daten von Sensoren, die im Data Center verteilt sind - Daten von Storage, CPU, Netzwerken oder Strom- und Umgebungsparametern.

Aus diesen Daten ziehen Machine-Learning-Systeme Informationen, nach denen sie beurteilen, was normal und was nicht normal ist, legen Schwellenwerte fest und schlagen bei Abweichungen von diesen Werten Alarm.

Solche intelligenten Systeme haben im Data Center einen hohen Nutzwert. Durch die enorme Komplexität sind dort drohende Systemausfälle oder andere Probleme nicht leicht zu identifizieren. "In der Praxis werden Systeme beispielsweise oft kontinuierlich langsamer", sagt Wilfried Cleres, Fujitsu Distinguished Engineer und verantwortlich für das Data Center Management and Automation Portfolio bei Fujitsu, die ein solches System im eigenen Haus einsetzen. "Sie fragen sich dann, wo das Problem liegen könnte. Fujitsu hat diese Technologie beispielsweise geholfen, ein recht komplexes Problem mit nicht-synchronen Serveruhren zu identifizieren.

Das Grundprinzip: Das KI-System lernt, definiert selbständig Schwellwerte hinsichtlich der Dringlichkeit als Funktion der Zeit und schlägt Alarm, sobald bestimmte Alarmmuster auftreten.
Das Grundprinzip: Das KI-System lernt, definiert selbständig Schwellwerte hinsichtlich der Dringlichkeit als Funktion der Zeit und schlägt Alarm, sobald bestimmte Alarmmuster auftreten.
Foto: Fujitsu / CA Technologies a Broadcom Company

KI legt Schwellenwerte fest

Intelligente KI-Systeme heben althergebrachte Monitoring-Methoden auf eine neue Stufe. In der Vergangenheit wurden Data Center typischerweise über eine Monitoring-Plattform überwacht. Der Admin musste auf der Plattform über Monitoring-Punkte festlegen, in welchen Zyklen die Daten abgerufen werden, und wann bestimmte Schwellenwerte überschritten werden. Die meisten Plattformen hatten das Manko, dass sich nur ein Schwellenwert über die ganze Zeit festlegen ließ und dass oft die Erfahrung fehlte, für welches Anwendungsscenario welcher Schellwertlevel sinnvoll ist.

Ein solches Vorgehen bildet die Realität allerdings schlecht ab. "In der Realität habe ich zum Beispiel Workloads wie ein SAP-System, das Monats- oder Quartalsabschlüsse macht", sagt Fujitsu-Experte Wilfried Cleres. "Wenn dieser Abschluss läuft, ist das System automatisch höher belastet als zu normalen Zeiten. Und genau diese Zyklen werden mit dem KI-System jetzt erkannt."

Klassisches Monitoring: Der Admin legt Schwellenwerte fest und muss viele Parameter im Auge haben.
Klassisches Monitoring: Der Admin legt Schwellenwerte fest und muss viele Parameter im Auge haben.
Foto: Fujitsu / CA Technologies a Broadcom Company

Im selbstlernenden Data Center hat die KI typischerweise nicht nur einen bestimmten Wert im Auge, sondern kann zigtausende Daten analysieren und Muster erkennen. Anhand der Muster kann das KI-System dann feststellen, ob sich ein Problem anbahnt und autonom oder teilautonom reagieren. Das System lernt - im Gegensatz zur alten Methode -selbstständig die Kriterien für normale und nicht-normale Zustände. Die dafür nötigen Schwellenwerte müssen nicht mehr manuell festgelegt werden, sondern werden automatisch von der KI definiert. Einziges Manko: Das Erkennen, was normal ist und was nicht, nimmt etwas Zeit in Anspruch und kann bis zu vier Wochen dauern. Dann allerdings hat die Software die Schwellenwerte als Funktion von der Zeit abgeleitet. Sie erkennt, was im Normbereich liegt und was nicht. Das System löst im Falle einer Schwellenwertüberschreitung einen Alarm aus und kann im Idealfall sogar Selbstheilungsmechanismen anstoßen.

Auf dem Weg zu Self Healing

Das Anstoßen von Selbstheilungsmechanismen ist derzeit allerdings noch nicht Standard. Aktuell liegt die Reaktion auf das, was das KI-System meldet, noch weitgehend im menschlichen Ermessen. Weil sich die Rahmenbedingungen von Rechenzentrum zu Rechenzentrum unterscheiden, sind automatische Self-Healing-Prozesse auf breiter Basis noch nicht möglich.

"Wir würden natürlich gern direkt für jede Abnormalität automatisch Self-Healing-Prozesse anstoßen - aber beim Self Healing stehen wir heute erst am Anfang", erklärt Fujitsu-Experte Wilfried Cleres. "Das Problem: Weil sich Data-Center-Implementierungen stark voneinander unterscheiden, muss ein Self-Healing-Prozess an die Rechenzentrums-Umgebung angepasst werden. Deshalb muss man in aller Regel noch Hand anlegen."

Künftig könnten Self-Healing-Prozesse laut Cleres mit einer zentralen Self Healing Library umgesetzt werden, über die das KI-System gespeist wird. An einer solchen Bibliothek mit Standard-Self-Healing-Funktionalitäten wird aktuell bereits gearbeitet. "Die Library wird dann in Zukunft mit ausgeliefert werden, so dass der Kunde nicht nur erkennt, dass ein bestimmtes Problem auftauchen wird. Er hat dann gleich das Medikament, mit sich das Problem lösen lässt."

Statt Stunden nur noch Minuten

Auch ohne Self Healing ist das KI-System aber bereits derzeit für viele Anwender von hohem Wert. Besonders groß ist der Nutzen bei Anwendern, die auf eine sehr hohe Verfügbarkeit ihrer Systeme angewiesen sind. "Je abhängiger ein Unternehmen von der Hochverfügbarkeit seines Rechenzentrums ist, desto wichtiger ist es, solche Technologien früh einzusetzen", sagt Wilfried Cleres. "Aus meiner langjährigen Praxis kann ich sagen: Oftmals werden solche Systeme erst dann verkauft, wenn etwas passiert ist - etwa nach einem größeren Ausfall."

Unternehmen, die das System einsetzen, bewerten vor allem die kurze Zeit der Fehlerdiagnose als großen Pluspunkt. "Die Leistungseinblicke in Echtzeit sind spektakulär", heißt es beim US-amerikanischen Energiekonzern Southwest Gas, der das KI-System bereits einsetzt. "Wir haben die Zeit für die Ursachenanalyse des Problems von Stunden auf Minuten reduziert."

Das für heterogene Landschaften entwickelte KI-System ist ein eigener Baustein im Fujitsu-Portfolio "Data Center Management Automation"; die Basistechnologie kommt vom Fujitsu-Partner CA Technologies a Broadcom Company. Die Lösung wird laut Wilfried Cleres sowohl in den Fujitsu-eigenen Rechenzentren, bei Managed-Service-Projekten und bei Kunden eingesetzt. Gleichzeitig veredelt Fujitsu die Lösung weiter.

Videos zum Self Driving Data Center

1. Auf dem Fujitsu Forum 2018 spricht Wilfried Cleres über digitale Zwillinge und das Fujitsu Self Driving Data Center. (Deutsch, 1:34 Minuten)

2. Auf dem Fujitsu Forum 2018 diskutiert Wilfried Cleres mit Arun Vijayaraghavan, Senior Director Machine Learning Services and Operational Intelligence bei CA Technologies a Broadcom Company, das Self Driving Data Center. (Englisch, 5:34 Minuten)

3. Dieses Videointerview führt Wilfried Cleres mit Wolfram Muehlboeck von CA Technologies a Broadcom Company. Thema ist der Einsatz Künstlicher Intelligenz im Rechenzentrum und wie sie dort sinnvoll genutzt werden kann. (Deutsch, 3:37 Minuten)

4. In diesem Vortrag spricht Wilfried Cleres über Human Centric AI. (Englisch, 37:34 Minuten)