Vom IT-Monitoring zur Business Observability

Der Schritt vom Monitoring zur Observability ist dringend erforderlich, denn anders können Unternehmen eine komplexe IT kaum noch ohne markante Störungen betreiben, um für eine angemessene Performance und User-Experience zu sorgen. Mit dem Versäumen eines Wechsels begeben Unternehmen sich mittlerweile in eine ernsthafte existenzielle Gefahr.

Die größte Herausforderung der IT ist immer noch die Komplexität der hybriden Systeme. In Deutschland ist die Anzahl der Unternehmen, die zur Nutzung von Clouds übergegangen sind, zwischen 2011 und 2022 von 28 % auf ganze 84 % gewachsen*. Parallel führte die Transformation zur Integration von immer mehr diversen Services, Warenwirtschaftssystemen oder Onlineshops – und damit zu extrem heterogenen Systemlandschaften. Es entstanden zahlreiche Datensilos, während die Datenmengen in den Terrabytebereich wuchsen, ohne dass sie bisher horizontal integriert worden wären. Auch die Frequenz der Deployments zur Einführung neuer Anwendungen oder Services erhöhte sich stark. Parallel zu diesen Entwicklungen der digitalen Transformation aber blieben die Ressourcen für ein umfassendes, zuverlässiges Monitoring der IT begrenzt. So wurde es zu einer extrem komplexen Aufgabe, denn immer mehr Vorgänge sind zu überwachen, immens viele potenzielle Schwachstellen gefährden den reibungslosen Betrieb und eine stabile Performance. 

Die Unternehmen versuchen noch, den Herausforderungen durch singuläre intelligente Überwachungen wie Cloud-, Network- oder Server-Monitoring zu begegnen – aber dieser Ansatz reicht nicht mehr aus. Er bindet jede Menge personeller Ressourcen für das Finden von Fehlerquellen und das Besorgen der jeweiligen Lösungen. Und oftmals dauert das Beheben der Ursachen von Störungen nicht Stunden, sondern Tage. So entsteht zum Beispiel eine schwache Performance mit langen Ladezeiten oder anderen Komplikationen. Gerade im Bereich des E-Commerce aber gilt: Jeder Klick zählt. Besonders hier wurden die Erwartungen der Kund*innen oder Nutzer*innen mit dem Fortschritt der Digitalisierung immer höher. User, die ein langsames Laden von Seiten oder Dysfunktionen in Kauf nehmen müssen, steigen ganz einfach aus oder löschen sogar Applikationen. Deshalb ist ein Übergang zur Observability sehr dringend nötig. Was kann sie zur Steigerung der Performance beitragen, was leistet das Konzept? 

Wir kommen mit dem Monitoring aus einer Welt von Incidents, Listen einzelner Vorkommnisse, vergleichbar mit herkömmlichen Staumeldungen: Man weiß, wo es welche Störungen gibt, aber den erhaltenen Informationen mangelt es an Aussagekraft – und die Erkenntnis über das Ausmaß der jeweiligen Probleme ist vage. Entsprechend lange dauert es, eine sinnvolle Entscheidung zu treffen, zum Beispiel, ob man auf derselben Autobahn bleiben oder seine Route ändern sollte. 

Der umfassende Ansatz der Observability führt weiter: Ihre Ergebnisse sind zu vergleichen mit denen, die wir beim Reisen oder auf dem Weg ins Büro von einem Navigations-System erhalten. Sie bietet einen Überblick aller wichtigen Faktoren in Echtzeit: die Höhe des Verkehrsaufkommens, Unfälle, Staus, eine Verzögerungsanalyse – und eine dynamische Routenführung. Alles ist auf einen Blick sichtbar. So erhalten wir eine verbindliche Orientierung in Echtzeit – und sinnvolle Entscheidungen für eine relativ zügige Weiterfahrt sind möglich.

Mit Observability erhält man anhand von Metriken, Logs und Traces alle relevanten Leistungsdaten von IT-Architekturen in Echtzeit auf einen Blick. Die Metriken liefern ein Bild vom Zustand des gesamten Systems. Logs liefern detaillierte Informationen für die Rekonstruktion von Transaktionen oder die Analyse von Störungen. Mithilfe von Traces werden User-Aktivitäten sichtbar und Fehler lassen sich sowohl identifizieren als auch beheben. Durch das gezielte Erfassen sämtlicher Komponenten eines Systems erhält man – auch mithilfe von AIOps-Lösungen – alle relevanten Informationen, um für eine Steigerung der Performance einer Website oder die Stabilität von Anwendungen und Diensten zu sorgen. 

Mit dem herkömmlichen Monitoring erfahren wir nur, dass Störungen vorliegen und Schwellenwerte überschritten werden. Observability hingegen zeigt uns auch, warum etwas nicht funktioniert. Es werden nicht nur Unregelmäßigkeiten angezeigt, sondern auch deren Ursachen werden klar und damit kann wertvolle Zeit für das Beheben von Störungen eingespart werden. 

Die Mercedes-Benz Group AG zum Beispiel analysiert mittlerweile im Bereich Aftersales zahlreiche ihrer global relevanten Dienste in Echtzeit. Das Unternehmen kann so auf kritische Ereignisse unmittelbar reagieren. Die Basis dieser „data-driven decisions“ sind aktuelle, verbindliche Daten zur Verfügbarkeit und Stabilität der Informationskette. Observability hilft hier auch dabei, die Zusammenarbeit von internen und externen Kräften zu optimieren. Die IT-Mitarbeiter*innen gewinnen ein Verständnis von Zusammenhängen und werten „Vorwarnungen“ aus. Sie handeln mittlerweile rechtzeitig, und zwar bevor Teile des Systems ausfallen. Die Fehlermeldungen mehrerer Tools und Datenquellen werden an einer zentralen Stelle erfasst und mithilfe von KI-Lösungen (AIOps) zu Situationen verdichtet. Die Alarme sind so von ganzen 3,1 Millionen Events auf lediglich 122 Situationen reduziert worden! Die Effekte liegen auf der Hand: Durch Observability wird seitens des Unternehmens eine große Menge an Zeit und Kosten eingespart für die Stabilität und Verfügbarkeit der Dienste – entscheidend aber ist die Steigerung der Profitabilität. 

Eine Investition in Observability ist für zahlreiche Unternehmen heute unerlässlich, ein Verharren in einer Welt von diversen unterschiedlichen Tools für vielfältige Aufgaben des Monitorings aber ausgesprochen fahrlässig. 

 

*Quelle: Statista