Observability: Performance Engineering für den geschäftlichen Erfolg

Die digitale Transformation und der E-Commerce werden global vorangetrieben. Damit nimmt der Anspruch an die Qualität der IT weiterhin zu – besonders hinsichtlich der Performance und User Experience. Doch hier ist der Status kritisch: 77% der Verbraucher haben aufgrund von Leistungsproblemen die Nutzung bestimmter digitaler Dienste eingestellt oder Anwendungen von ihren Geräten gelöscht.

Entsprechend wächst der Bedarf an Strategien und Lösungen für ein effektives Application Performance Management (APM): Betriebs-Teams, Entwickler und das Management brauchen eine umfassende Transparenz ihrer gesamten IT-Architektur und zuverlässige Tools, um mit einem möglichst geringen Aufwand an Ressourcen die Business Continuity zu gewährleisten. Aufgrund der enormen Komplexität reicht ein klassisches Überwachen von Schwellenwerten nicht mehr aus. Im Online-Handel oder bei anderen komplexen Umgebungen aus Clouds, Microservices und diversen Anwendungen ist zur operativen Absicherung einer soliden Performance besonders der geschäftskritischen Prozesse die Einführung von Observability notwendig. 

In die Digitalisierung der Industrie und diverser Business-Prozesse wird weiterhin investiert, allerdings mit Einsparungen. Der Mittelwert der IT-Budgets lag 2023 in Relation zum Gesamtumsatz der Unternehmen bei rund 3,6 Prozent, 2022 betrug der Wert noch 4,2 Prozent. Dabei gibt es je nach Branche Unterschiede: In Finanzwirtschaft oder Elektrotechnik liegt der Anteil des IT-Budgets am Umsatz zum Beispiel deutlich über dem Mittelwert, im Baugewerbe oder Maschinen- und Anlagenbau darunter. 

Etwa 80 Prozent der Unternehmen legen bei den Investitionen ihren Fokus auf die Cyber Security – wegen der wachsenden Professionalität der Hackerangriffe. 59 Prozent wollen allerdings Ihre Budgets für den IT-Betrieb einsetzen, um auf veränderte Kundenanforderungen zu reagieren. Zur Steigerung der Wettbewerbsfähigkeit soll eine Verbesserung der E-Commerce-Performance erreicht werden – eine bessere Stabilität, größere Flexibilität und höhere Skalierbarkeit der Systeme für eine gute Customer Experience. Die meisten Entscheider sehen dafür unter anderem eine Erneuerung der IT-Infrastruktur vor. Für den E-Commerce wird der Einsatz von MACH-Architekturen gegenüber All-in-One-Lösungen mehr und mehr zum Standard, unter anderem, weil sie wegen ihrer guten Skalierbarkeit auch bei Cloud-Technologien eine hohe Stabilität bieten, sich relativ einfach variablen Kundenbedürfnissen anpassen lassen und kurze Customer Journeys ermöglichen. 

Grundsätzlich ist mit der Konsolidierung und Erweiterung von Infrastrukturen oder ganzer Systemlandschaften immer auch die Integration effektiver Monitoring-Tools erforderlich. Anders sind die IT-Stabilität und User Experience nicht auf einem optimalen Niveau zu halten. Denn der Betrieb von Cloud-Infrastrukturen in Verbindung mit Microservices, Serverless-Anwendungen und Multi-Cloud-Datenbanken sowie in eigenen Rechenzentren gehostete klassische Anwendungen bringen in der Regel relativ große Mengen an Anomalien mit sich. Parallel wird der wachsende Einsatz von KI zu einer weiteren Herausforderung. 

Neue Herausforderung: KI und Schatten-KI

Forrester prognostiziert, das 2024 der Trend zur Künstlichen Intelligenz (KI) in eine neue Ära der bewusst eingesetzten KI (Intentional AI) münden wird. Der Hype und manche übertriebene Erwartung werden durch konkrete strategische Initiativen abgelöst: 67% der Unternehmen wollen Generative AI in ihre allgemeine KI-Strategie integrieren. Hinzu kommt, dass im laufenden Jahr etwa 60 Prozent der Beschäftigten in den Unternehmen ungefragt KI bei der Arbeit verwenden würden. Die Marktforscher warnen deshalb vor einer wachsenden „Schatten-KI“. Diese Entwicklung unterstreicht eine Studie von Salesforce: 52 Prozent der in Deutschland befragten Arbeitnehmer*innen berichteten, bereits unerlaubte Gen-AI-Tools eingesetzt zu haben; 34 Prozent verwendeten im Unternehmen eigene, offiziell verbotene KI-Tools. Diese Tendenz zum Bring-your-own-AI (BYOAI) soll sogar zu einem Boom werden. 

Die offizielle und inoffizielle Nutzung von KI sind nicht nur ein Sicherheitsrisiko. Vielmehr müssen die Unternehmen durch ein entsprechendes Monitoring und Performance-Management dem Einsatz der noch relativ neuen Technologien Rechnung tragen. Während sich eine Schatten-KI wohl zum größten Teil über interne Regeln begrenzen lässt, wird MLOps (Machine Learning Operations) für die strategische Nutzung AI-basierter Tools zu einer weiteren Quelle potentieller Probleme für die Business Continuity. 

Monitoring erfasst 1% der Anomalien 

Der Betrieb von Containern, Microservices, Clouds und KI erhöht nicht alleine die Komplexität der IT-Infrastrukturen, sondern erzeugt Datenmengen im Terrabytebereich, was das herkömmliche Monitoring vor unlösbare Aufgaben stellt. Es entsteht ein hoher Grad an Blindheit der Administration gegenüber den Ereignissen in den Netzwerken und hybriden Systemen. Denn immer noch bedarf es bei großen Mengen an Anomalien eines sehr hohen Aufwands an Zeit für die Analyse einzelner unbekannter Fehlermeldungen – zur Erkenntnis des jeweiligen Problems anhand mehrerer interner Prüfungen durch verschiedene Spezialisten sowie schließlich zur Definition und Abstimmung einer geeigneten Lösung. Besonders das Verstehen akuter Incidents wird zu einer Herausforderung. Das übliche Monitoring reicht alleine für das Behandeln bekannter und erwarteter Ereignisse aus – sogenannter „known Knowns“. Das sind lediglich etwa 1% der Vorfälle! Denn in komplexen Umgebungen gibt es zu viele unbekannte und unerwartete Anomalien – „unknown Unknowns“. Die singulären und zum Teil schon KI-gestützten Überwachungen eines Cloud-, Network- oder Server-Monitoring zeigen zwar recht gut, wenn etwas nicht stimmt, aber nicht „was“ genau und „warum“. Die Folgen einer schwierigen Fehlersuche sind nicht selten eine stunden- oder sogar tagelang schwache Performance und eine äußerst kritische User Experience. Das aber ist im Business und besonders im Bereich des E-Commerce mittlerweile ein No-go. Hier gilt immer noch, was Greg Linden, der Erfinder des Empfehlungs-Systems bei Amazon, einmal sagte: „100 Millisekunden Verzögerung der Antwortzeit kosten Amazon 1 Prozent des Umsatzes.“ Deshalb müssen Unternehmen für eine stabile Applikations-Performance unbedingt zu einer umfassenden Einführung von Observability kommen, einem Echtzeit-Monitoring mit automatisierten Fehleranalysen und Debugging-Prozessen sowie kurzen Mean Times to Resolution (MTTR) bei schwierigeren Anomalien. Performance matters.

Optimales APM mit Observability

Observability erweitert das KI-gestützte Monitoring komplexer Infrastrukturen. Das Konzept basiert auf der kombinierten Auswertung von Logs, Metriken und Traces. Logs liefern zum Beispiel Informationen zu Ereignissen oder Fehlern, die in der Umgebung einer Anwendung auftreten sowie zu angebundenen Endgeräten und Nutzern. Metriken geben darüber Auskunft, wie viele Transaktionen sie pro Sekunde verarbeitet und zur temporären Auslastung von einzelnen IT-Komponenten wie CPU oder Speicher. Traces zeichnen unter anderem auf, wie lange ihre Systeme brauchen, um eine Anfrage zu verarbeiten, oder welche unter ihnen Fehler verursachen. Durch das kombinierte Auswerten von Logs und Metriken entsteht eine ausgesprochen große Transparenz. So lässt sich zum Beispiel mit der kontinuierlichen Analyse von Metriken beobachten, dass sich die Antwortrate einer Anwendung hin und wieder verlangsamt, was zunächst auf ein Leistungsproblem hindeutet. Das entsprechende Log aber kann dazu die nähere Auskunft geben, dass komplexere Transaktionen verarbeitet wurden.

Die Einführung von Observability erfolgt durch das Instrumentieren ganzer Systeme, um Metriken, Traces und Logs zu erfassen. Aufgrund der riesigen Mengen an Daten, die dabei aufkommen, eignet sich deren Analysen mit KI und Machine Learning (ML) besonders gut. So werden die Informationen schnell ausgewertet und Erkenntnisse gewonnen, die anders nur schwer zu treffen wären. Die Algorithmen kennen zum Beispiel den Zustand von Anwendungen und Services in der Vergangenheit. Auf dieser Basis werden anhand des Abgleichs mit Echtzeitdaten Veränderungen im System festgestellt. Die AI-basierten Lösungen sondieren die Anomalien, ordnen wiederkehrende Fehler automatischen Korrekturprozessen zu (Automatic Remediation) und senden unbekannte an ein Spezialisten-Team. Observability erleichtert und beschleunigt das Aufspüren und Definieren von Anomalien wesentlich, und zwar auch solcher, welche die Administratoren weder verstehen, noch erwartet haben – „unbekannte Unbekannte“ (unknown unknowns). Denn anhand der systematischen Auswertung von Metriken, Logs und Traces lassen sie sich relativ schnell aufspüren, verstehen und beseitigen – für einen reibungslosen Betrieb und eine optimale User-Experience. 

Vorteile für das Digitale Business

Für das digitale Business bietet Observability neben einer optimalen Performance weitere Vorteile. Zum Beispiel sind Daten zum Kundenverhalten relativ einfach mit technischen Informationen zu korrelieren, um die Auswirkungen von Veränderungen des Systems auf die Entwicklung des Geschäfts eindeutig festzustellen. So lässt sich etwa belegen, wie die IT durch eine eigene Wertschöpfung am Unternehmenserfolg tatsächlich beteiligt ist.

Ferner können anhand von statistischen Daten Prognosen über wahrscheinliche Ereignisse wie künftige System-Auslastungen getroffen werden (Predictive Analytics), um beispielsweise Skalierungen der Rechenleistung mit Blick auf erhöhte Zugriffszeiten bestimmter Zielgruppen zu planen. Echtzeitdaten lassen sich mit den Key Performance Indicators (KPI) einer optimalen User Experience wie der Task-Success-Rate oder Time-on-Task abgleichen, um das aktuelle Nutzungserlebnis darzustellen. 

Durch ein effizienteres Troubleshooting entstehen große Freiräume für DevOps-Teams zum Bereitstellen neuer Anwendungen. Und auch dieser Prozess wird durch Observability verkürzt: So lassen sich beispielsweise bereits während der Integration oder Aktualisierung von Applikationen Logs, Metriken und Traces mit Daten aus einer CI/CD-Pipeline verbinden, um herauszufinden, welchen Einfluss die Veränderung auf die Leistung in einer Umgebung hat. Eventuelle Probleme werden so schon in diesem Stadium sichtbar und können beseitigt werden. Die Entwickler und Programmierer gewinnen damit insgesamt mehr Zeit für andere Projekte, um für ihr Unternehmen weiteren Mehrwert zu generieren. 

Der strategische Einsatz Generativer KI bleibt allerdings noch eine Herausforderung für das Application Performance Management. Es muss künftig der Komplexität dieser Anwendungen gewachsen sein und eine erweiterte Datenvielfalt bei sehr viel größeren Datenvolumen handhaben. Zu einer Observability der KI ist der Weg noch nicht ganz geebnet. „Wir müssen herausfinden, wie wir von der KI bestimmte Metriken, Logs und Traces kriegen“, so Cory Minton, Leiter des Observability Strategie-Teams bei Splunk. „Verhält sie sich so wie erwartet? Und falls nicht – wie können wir die gesamte MLOps-Pipeline so aufbauen und abstimmen, dass wir die Funktionalität aufrechterhalten?“ Diese Anforderung wird ein modernes Observability System erfüllen müssen – ob mit oder ohne die Integration der Generativen KI.

Solider Return on Investment

Das klassische APM erreicht eine neue Ära des Performance Engineerings. Natürlich wird sich das Beheben von Anomalien aller Art mit Observability nicht vollständig automatisieren lassen. Aber die Lösungen sind für das Performance Management ideal: Sie lokalisieren und klassifizieren ein unbekanntes Problem so, dass es genau die Person erreicht, welche es unmittelbar lösen kann. Die automatisierten Prozesse setzen außerdem Ressourcen der Fachkräfte frei, denn sie müssen nicht mehr Massen an Daten und Ereignissen manuell durchforsten, um Lösungen für Anomalien zu finden. Beim Einsatz von Observability können sich die Mitarbeiter auf komplexere Probleme oder andere Aufgaben konzentrieren.

Das Konzept hat einen äußerst positiven Einfluss auf das Geschäft. Umfragen ergaben, dass Unternehmen zunehmend in Observability investieren, um ihre Geschäftsziele zu erreichen, höhere Umsätze und bessere Ergebnisse zu erzielen. Die Befragten schätzten, dass der jährliche Return on Investment im Durchschnitt den Faktor 2 beträgt, also das Doppelte der jeweiligen Investitionen einbringt – Performance Engineering mit Observability zahlt sich aus.

#AIOps Artificial Intelligence Operations
Erhellendes aus der IT

#APM Application Performance Management
Wir machen Ihren Apps Beine.