Beobachtbarkeit

Finden und beheben Sie Probleme effizient, verbessern Sie den Zustand von Anwendungen und das Kundenerlebnis.

Drei grundlegende Signale für die Beobachtbarkeit sind Metriken, Protokolle (halbstrukturierte Daten) und Traces (Abläufe von Anfragen von Anfang bis Ende über alle Abhängigkeiten hinweg). Diese Signale sind die Ausgabe von überwachten Umgebungen, wie Containern, Microservices und Anwendungen. Ziel ist es, DevOps und Site Reliability Engineers ein integriertes Erlebnis zu bieten, um kritische Ereignisse zu isolieren und alle Beobachtungssignale zu nutzen, um Probleme bei containerisierten Anwendungen und Microservices, die überall laufen, zu isolieren. Amazon OpenSearch Service kombiniert die Analyse von Protokoll- und Trace-Daten in einer einzigen Lösung.

Beobachtbarkeitsoperationen

Amazon OpenSearch Service bietet neue Funktionen, die Ihnen bei der Lösung Ihrer Beobachtungsprobleme helfen.

Funktionen

Verwenden Sie offene Schnittstellen zum Erfassen, Weiterleiten und Umwandeln von Telemetriedaten (einschließlich OpenTelemetry, Fluent Bit, Fluent Bit, Logstash, Data Prepper, und mehr). Sie können große Mengen an halbstrukturierten Daten mit nativen Funktionen durchsuchen und analysieren. Sie können mit den Beobachtungsfunktionen von OpenSearch Dashboards zur Erkennung von Anomalien visualisieren, überwachen und warnen und mit der Piped Processing Language (PPL), einer Abfrageoberfläche, interaktive Analysen und Visualisierungen von Daten durchführen.

Sammeln

Zunächst müssen Sie Daten zur Analyse erfassen. Die Erfassung umfasst das Sammeln, Anreichern, Filtern, Transformieren und Normalisieren von Daten aus verschiedenen Quellen.

Erkennung

Oftmals bemerken Kunden Probleme nicht so schnell, wie sie begonnen haben. Es gibt oft eine Verzögerung zwischen dem Beginn eines Problems und dem Zeitpunkt, an dem Sie benachrichtigt werden. Sie möchten dies so weit wie möglich reduzieren. Die Erkennung sollte proaktiv und vielschichtig sein (z. B. Alarme über Telemetrie). Die Erkennung von Anomalien ist ein wichtiges Instrument, ebenso wie die Möglichkeit, zusammenhängende Alarme miteinander zu verknüpfen, um die Alarmmüdigkeit zu verringern. Eine Kernkomponente der Erkennung ist auch die Visualisierung und Überwachung, die Amazon OpenSearch Service mit einer Komponente namens OpenSearch-Dashboards übernimmt. Sie können die Daten sogar interaktiv analysieren mit Tools wie PPL.

Untersuchen

Die meiste Zeit während eines operativen Ereignisses verbringen die Mitarbeiter mit Untersuchen – und für die Untersuchungen sind in der Regel mehrere Personen erforderlich. Dies ist der größte Beitrag zu Mean Time to Incident (MTTI) und Mean Time to Recovery (MTTR). Das Chaos zu durchschauen und zu verstehen, worauf man sich konzentrieren sollte, bleibt eine schwierige Aufgabe. Verwenden Sie Protokolle, Metriken und Tracing, um schnell eine Ursachenanalyse durchzuführen und dabei Metriken, Protokolle und Traces miteinander zu korrelieren – auf AWS, vor Ort oder in anderen Clouds. Arbeiten Sie gemeinsam an den Untersuchungen und dokumentieren Sie Ihre Analyse mit OpenSearch-Dashboard-Notebooks.

Beheben

Nachdem Sie die Ursache eines Fehlers ermittelt haben, müssen Sie ihn beheben. Es gibt nichts Schlimmeres, als zu versuchen, etwas zu reparieren und die Situation noch schlimmer zu machen. Vergessen Sie nicht, eine Analyse nach dem Ereignis durchzuführen, um festzustellen, wie Sie den Ausfall von vornherein hätten verhindern können. Dokumentieren Sie die vorgeschlagenen Änderungen, damit Sie verhindern können, dass das Problem erneut auftritt. Ihr Ziel sollte es sein, sicherzustellen, dass das gleiche Problem nie wieder auftritt – und falls doch, dass Sie es automatisch erkennen und beheben können.

Überwachung der Anwendungsleistung

Manchmal ist Application Performance Monitoring (APM) die erste Reifegradstufe der Beobachtbarkeit. Aber APM allein reicht nicht aus. Läuft Ihre Anwendung tatsächlich wie erwartet, auch wenn Ihr Anwendungsüberwachungs-Dashboard alles im grünen Bereich zeigt? Bekommen Ihre Kunden das Benutzererlebnis, das sie brauchen? Wie wird Ihre Anwendung genutzt? Welche Teile Ihrer Anwendung stoßen an die Grenzen der Skalierbarkeit? In welcher geografischen Region verzeichnen Sie das größte Wachstum? Welche Trends können Sie visualisieren und dafür vorausplanen? Wenn Sie Metriken erfassen könnten, hätten Sie die Gewissheit, dass Sie bei der Implementierung von neuem Code oder bei Änderungen an Ihrer Infrastruktur die Auswirkungen dieser Änderungen erkennen können. Durch die Beobachtbarkeit wird APM weiterentwickelt, um diese zusätzlichen Fragen zu beantworten.

Computer, der Leistungsüberwachung anzeigt

Kunden

Chase International: Ständig verfügbares Kundenerlebnis in großem Maßstab
Dow Jones und 3M: Beobachtbarkeit mit Amazon OpenSearch Service

Beobachtbarkeitsressourcen

1 - 8 (11) wird angezeigt

Themen der Seite

Allgemeines

Allgemeines

Trace Analytics ist eine neue Funktion von Amazon OpenSearch Service, die es Entwicklern und IT-Betreibern ermöglicht, Leistungsprobleme in verteilten Anwendungen zu finden und zu beheben, was zu schnellerer Problemlösung führt. Trace Analytics basiert auf OpenTelemetry, einem Projekt der Cloud Native Computing Foundation (CNCF), das einen einheitlichen Satz von APIs, Bibliotheken, Agents und Collector-Services zur Erfassung verteilter Traces und Metriken bereitstellt, sodass Kunden Trace Analytics nutzen können, ohne ihre Anwendungen neu instrumentieren zu müssen. Trace Analytics wird von OpenSearch unterstützt, ist Open-Source und frei für jedermann zum Download und zur Nutzung verfügbar.

Entwickler und IT Ops benötigen Trace Analytics, um Leistungsprobleme in ihren verteilten Anwendungen zu finden und zu beheben. Durch das Hinzufügen von Trace-Daten zu den vorhandenen Protokollanalysefunktionen von Amazon OpenSearch Service können Kunden ein und denselben Service nutzen, um sowohl die Quelle von Leistungsproblemen zu isolieren als auch deren Ursache zu ermitteln. Darüber hinaus unterstützt Trace Analytics durch die Unterstützung des OpenTelemetry-Standards die Integration mit den Jaeger- und Zipkin-SDKs, zwei beliebten Open-Source-Systemen für verteiltes Tracing, was es Entwicklern ermöglicht, diese SDKs weiterhin zu verwenden und ihre Anwendungen nicht neu instrumentieren zu müssen.

Trace Analytics ist eine integrierte Funktion des Amazon OpenSearch Service. Sie ist für alle Kunden ohne Aufpreis verfügbar. Trace Analytics verfügt über eine OpenSearch- und Kibana-basierte Benutzeroberfläche zur Visualisierung und Erkundung von Trace-Daten und ist in wichtige Funktionen von Amazon OpenSearch Service integriert, z. B. Anomalieerkennung, Warnungsgenerierung, detaillierte Zugriffskontrolle und Unternehmenssicherheit. Trace Analytics ergänzt die Nutzung von Amazon OpenSearch Service durch Kunden für die Suche und Analyse von Protokolldaten bei der Lösung von Anwendungsleistungsproblemen.

Trace Analytics unterstützt die Erfassung von Nachverfolgungs-Daten aus Anwendungsbibliotheken und SDKs, die mit dem Open Source OpenTelemetry Collector kompatibel sind, einschließlich Jaeger-, Zipkin- und X-Ray-SDKs. Zudem lässt sich Trace Analytics in AWS Distro für OpenTelemetry integrieren, einer Distribution von APIs, SDKs und Agents/Collectors für OpenTelemetry. Es ist eine performante und sichere Distribution von OpenTelemetry-Komponenten, die für den Produktionseinsatz getestet wurde und von AWS unterstützt wird. Kunden können mit AWS Distro for OpenTelemetry Traces und Metriken für mehrere Überwachungslösungen erfassen, darunter Amazon OpenSearch Service und AWS X-Ray für Nachverfolgungs-Daten und Amazon CloudWatch für Metriken.

Um mit Trace Analytics zu beginnen, befolgen Sie die Anweisungen der Dokumentation, die Sie hier finden.