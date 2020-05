Devops und Site Reliability Engineers sind für die Funktionsfähigkeit von Anwendungen unerlässlich. AIOps steigert ihre Effektivität um eine weitere Stufe. [...]

IT-Operationsteams verwenden zahlreiche Tools zur Überwachung, Diagnose und Lösung von Problemen bei der System- und Anwendungsleistung. In einer kürzlich durchgeführten Befragung von 1.300 IT-Fachleuten über die Zukunft von Überwachung und AIOps gaben 42 Prozent der Teilnehmer an, mehr als 10 Überwachungstools zu verwenden; 19 Prozent verwenden mehr als 25 Tools.

Das ist eine Menge Technologie, nur um den Laden am Laufen zu halten und die Daten zu ermitteln, die zur Überwachung, Alarmierung, Untersuchung und Lösung von Anwendungsvorfällen erforderlich sind.

Überwachungstools sind nicht für alle gleichermaßen geeignet, insbesondere nicht für Unternehmen, die geschäftskritische Anwendungen in Multi-Cloud-Umgebungen betreiben. Da Unternehmen in mobile Anwendungen, Microservices, Dataops und datenwissenschaftliche Programme investieren, werden neue Überwachungstools hinzugefügt, um domänenspezifische Überwachungsfunktionen zu ermöglichen.

AIOps-Plattformen zielen darauf ab, diese Landschaft von Überwachungstools zu vereinfachen. Dadurch hilft AIOps Unternehmen, die hohe Anwendungs-Service-Levels benötigen, die Komplexität ihrer Überwachungstools und IT-Betriebsabläufe besser zu verwalten. Wie der Name schon sagt, bringt AIOps maschinelles Lernen und Automatisierungsfunktionen in die Domäne des IT-Betriebs. Diese Technologien zielen darauf ab, Vorfälle schneller zu lösen, betriebliche Trends zu erkennen, die sich auf die Leistung auswirken, und die zur Lösung von Problemen erforderlichen Verfahren zu vereinfachen.

AIOps ist eine aufstrebende Plattform. In der Erhebung hatten 42 Prozent der Befragten entweder noch nie von AIOps gehört oder waren der Meinung, dass die Anwendung von maschinellem Lernen auf den Betrieb „keine Rolle“ spielt. Nur 4 Prozent setzen heute ein AIOps-Tool in der Produktion ein. Obwohl AIOps eine aufstrebende Plattform ist, gibt es für viele Unternehmen einen handfesten geschäftlichen Grund, es in Betracht zu ziehen.

AIOps wird durch Geschäftsanforderungen und betriebliche Komplexität bestimmt

Heutzutage verlassen sich immer mehr Unternehmen auf Anwendungen, um Kunden zu erreichen und den Betrieb zu gewährleisten. Dies führt zu höheren Anforderungen und Erwartungen an die Zuverlässigkeit, Leistung und Sicherheit der Anwendungen.

Es steigert auch die Nachfrage nach Teams zur Anwendungsentwicklung, die immer häufiger neue Anwendungen entwickeln und diese verbessern müssen. Auch die Verantwortung für die Aufrechterhaltung der Anwendungs-Service-Levels hat sich in den letzten zehn Jahren weiter erhöht.

Es gab einmal Unternehmen, die das NOC (Network Operations Center) als erste Verteidigungslinie einsetzten. Wenn Sie jemals ein NOC betreten haben, werden Sie wahrscheinlich Dutzende von Computermonitoren mit Warnleuchten und optischen Trendgrafiken sehen, die dem Personal helfen, Probleme zu erkennen – idealerweise bevor ein Endbenutzer ein solches erlebt und Tickets öffnet.

Geschäfts- und IT-Führungskräfte begannen, dieses Modell zu ändern, indem sie Devops-Praktiken und Site Reliability Engineers einführten. Devops verändert die Kultur der IT-Abteilung, indem es eine kollektive Verantwortung festlegt, um häufige Einsätze zu ermöglichen und Kunden- und Mitarbeiterbedürfnisse besser zu unterstützen. Tools und Praktiken wie CI/CD (kontinuierliche Integration und kontinuierliche Bereitstellung) und IaC (Infrastruktur als Code) sind Teil dessen, was häufigere Einsätze ermöglicht.

Aber die Praktiken von Devops erfordern auch eine geteilte Betriebsverantwortung, die sicherstellt, dass die Anwendungen zuverlässig, leistungsstark und sicher sind. Das bedeutet, dass mehr Mitarbeiter im IT-Unternehmen Zugang zu all den verschiedenen Überwachungstools benötigen.

Viele IT-Unternehmen stellen auch SREs (Site Reliability Engineers) ein, um Entwicklung und Betrieb zu verbinden. SREs verfolgen bei Themen der Systemadministration einen softwaretechnischen Ansatz. In einer anderen Umfrage, die sich an SREs richtete, gaben die Befragten an, dass die Reaktion auf Vorfälle einen großen Teil ihrer Arbeit ausmache: 49 Prozent geben an, jede Woche auf mindestens einen Vorfall zu reagieren.

Durch ausgereifte Entwicklungspraktiken und die Einstellung von Site Reliability Engineers sieht sich eine wachsende Zahl von IT-Unternehmen mit zunehmenden betrieblichen Herausforderungen konfrontiert. Doch allein die Erwartung, dass sie aus den Dutzenden von Überwachungstools, die im Unternehmen eingesetzt werden, schlau werden, ist ein Garant für schlechte Leistung.

AIOps-Plattformfunktionen und technische Architektur

Wie können AIOps den Status quo verbessern? AIOps-Plattformen haben in der Regel die folgenden Architekturkomponenten und Fähigkeiten:

Eine zentrale Datenplattform zur Aggregation von Rohprotokollen und Daten aus verschiedenen Überwachungstools.

Out-of-the-box-Integrationen mit den gängigsten Protokollformaten, Überwachungstools, IT-Service-Management-Tools, agilen Entwicklungstools und anderen Kollaborationsplattformen.

Funktionen für maschinelles Lernen, die bei der Identifizierung von Mustern in den aggregierten Daten helfen.

Konsolen, Dashboards und Analysefunktionen, mit denen IT-Abteilungen mehrere Systeme von einer zentralen Oberfläche aus sehen und verwalten können.

Automatisierungsfunktionen, die es der IT-Abteilung ermöglichen, den Status zu kommunizieren, Probleme weiterzuleiten und automatisch auf häufige Probleme zu reagieren.

Was AIOps von anderen IT-Betriebsplattformen unterscheidet, ist die Fähigkeit, Daten einfach zu aggregieren, maschinelles Lernen zum Auffinden von Problemen zu nutzen und die Automatisierung als Hilfsmittel zu deren Lösung einzusetzen. AIOps ersetzt nicht die vorhandenen Überwachungstools. Es lässt sich mit ihnen kombinieren, so dass mehr Mitarbeiter in der IT-Abteilung die Sichtbarkeit von Problemen verbessert sehen können, ohne die Komplexität des maschinellen Lernens und die Verwendung mehrerer Überwachungstools in Kauf nehmen zu müssen.

Ebenso ersetzen AIOps-Plattformen in der Regel nicht die vorhandenen IT-Servicemanagement-, Workflow-, agilen und anderen Kommunikationstools. Stattdessen stellen sie eine zentrale Plattform dar, mit der sie bei der Alarmierung und Lösung eines Vorfalls zusammenarbeiten.

Überwachung unternehmenskritischer Anwendungen ohne AIOps

Stellen Sie sich vor, dass Ihre E-Commerce-Anwendung eine geringe Leistung aufweist, wenn Benutzer versuchen, einen Kauf abzuschließen. Der erste Indikator, der Warnungen zu versenden beginnt, ist die Abbruchrate des Einkaufswagens.

Der Leiter der E-Commerce-Anwendung öffnet in Cherwells mobiler Schnittstelle schnell ein Ticket zu diesem Problem, aber das IT-Team wurde bereits auf das Problem aufmerksam gemacht. Da immer mehr Benutzer versuchen, Einkäufe zu tätigen, hängen die zugrunde liegenden Webserver und die Datenbankverbindungen bleiben offen. Warnmeldungen von DataDog berichten über diese Probleme, und Splunk meldet Java-Exceptions in den Protokolldateien der E-Commerce-Anwendung.

Jetzt stellen Sie sich das NOC vor, das auf dieses Problem reagiert. Wo sollten sie angesichts der Anzahl an gleichzeitig ablaufenden Warnungen beginnen? Die SREs, die zur Unterstützung hinzugezogen werden, müssen auch die verschiedenen Warnmeldungen der verschiedenen Tools untersuchen. In der Zwischenzeit ist die Leiterin des E-Commerce verärgert, weil niemand auf ihr Ticket geantwortet hat!

AIOps hilft der IT-Abteilung, Probleme schneller und stressfreier zu lösen

Hier erfahren Sie, wie AIOps-Plattformen dieses Problem potenziell schneller und effektiver angehen können.

Zunächst sieht AIOps, dass mehrere Warnungen ausgelöst werden, darunter auch Anwendungswarnungen. Er alarmiert automatisch die SREs, und wenn einer antwortet, informiert er automatisch Cherwell, dass der Vorfall von einem SRE beantwortet wurde. Niemand musste irgendein System manuell aktualisieren, um diese Mitteilungen zu versenden.

Zweitens werden die Warnmeldungen von Cherwell, der E-Commerce-Plattform, Splunk und DataDog aggregiert und zeitlich geordnet. Der SRE weiß sofort, welcher Alarm eingetroffen ist, bevor die anderen ausgelöst wurden. Das ist unglaublich nützlich, weil der SRE schnell erkennen kann, dass der Webserver hängt und die Pooling-Datenbankverbindungen alle nach den Ausnahmen der Java-Anwendung gestartet wurden.

Die maschinellen Lernfähigkeiten der AIOps-Plattform sind ziemlich ausgefeilt, so dass neben der Berichterstattung über Alarme auch andere Ausreißer-Betriebsbedingungen hervorgehoben werden. In diesem Fall hat die E-Commerce-Anwendung viele langsame ausgehende Verbindungen zu einer einzigen IP-Adresse. Es gibt keine Warnmeldungen oder Ausnahmen zu diesem Thema, aber der Zeitplan geht allen anderen Warnmeldungen voraus.

Der SRE braucht nicht viel länger, um herauszufinden, dass es sich um eine Verbindung zu einem Drittanbieterdienst handelt, der die Stadt, das Bundesland und die Postleitzahl des Käufers validiert. Dieser Dienst hat eindeutig Performance-Probleme, die sich durch die gesamte Anwendung ziehen.

Nachdem eine Ursache festgestellt wurde, fügt der SRE dem Jira-Rückstand des E-Commerce-Entwicklungsteams einen schwerwiegenden Defekt hinzu und weist das Team auf das Problem hin. Ein hochgradig schwerwiegender Fehler signalisiert dem agilen Entwicklungsteam, seinen Sprint zu unterbrechen und das Problem zu beheben. Es ist eine schnelle Korrektur, um den betroffenen Dienst zu umgehen, und es ist einfach, die Änderung zu testen und über ihre Jenkins CI/CD-Pipeline zu implementieren.

Die AIOps-Plattform verfolgt diesen Defekt, den Einsatz und den Rückgang aller Warnmeldungen und hält den E-Commerce-Leiter über den Fortschritt auf dem Laufenden. Auch wenn der SRE die Situation überwacht, schließt die AIOps-Plattform das Problem automatisch, sobald alle Monitore wieder normal arbeiten.

Die Implementierung dieses Szenarios ist nicht trivial, aber es ist auch keine Science-Fiction über AIOps-Plattformen.

*Isaac Sacolick ist der Autor von Driving Digital: The Leader’s Guide to Business Transformation through Technology (Leitfaden für Unternehmensumwandlung durch Technologie), der viele Praktiken wie Agile, Devops und Datenwissenschaft behandelt, die für erfolgreiche digitale Umwandlungsprogramme entscheidend sind. Sacolick ist ein anerkannter Top-Social-CIO, ein langjähriger Blogger bei Social, Agile and Transformation und CIO.com und Präsident von StarCIO.