Rileva e risolvi i problemi in modo efficiente, migliora l'integrità delle applicazioni e offri ai clienti esperienze migliori
Tre segnali fondamentali dell'osservabilità sono metriche, log (dati semi-strutturati) e tracing (flussi di richieste dall'inizio alla fine attraverso tutte le dipendenze). Questi segnali provengono dagli ambienti monitorati, come i container, i microservizi e le applicazioni. L'obiettivo è fornire un'esperienza integrata in modo che i tecnici DevOps e Site Reliability Engineer possano isolare gli eventi critici e utilizzare tutti i segnali di osservabilità per isolare i problemi nelle applicazioni e nei microservizi containerizzati in esecuzione ovunque. Il servizio OpenSearch di Amazon combina le analisi dei log e del tracing in un'unica soluzione.
Operazioni di osservabilità
Il servizio OpenSearch di Amazon fornisce nuove funzionalità per risolvere i problemi di osservabilità.
Caratteristiche
Utilizza le interfacce aperte per raccogliere, instradare e trasformare i dati telemetrici (tra cui OpenTelemetry, Fluentd, Fluent Bit, Logstash, Data Prepper e non solo). Puoi cercare e analizzare grandi quantità di dati semi-strutturati con funzionalità native. Puoi inoltre visualizzare, monitorare e inviare avvisi sul rilevamento delle anomalie grazie alle funzionalità di osservabilità dei pannelli di controllo di OpenSearch, oltre a condurre analisi interattive e visualizzare i dati con l'interfaccia di query Piped Processing Language (PPL).
Raccolta
Per prima cosa, devi raccogliere i dati per l'analisi. Il processo include la raccolta, l'arricchimento, il filtraggio, la trasformazione e la normalizzazione dei dati da più origini.
Rilevamento
Spesso i clienti non rilevano i problemi con tempestività e c'è sempre un ritardo da quando il problema inizia a quando viene riconosciuto. Devi ridurre questo ritardo il più possibile. Il rilevamento deve essere proattivo e variegato (per esempio con avvisi sulla telemetria). Il rilevamento delle anomalie è uno strumento chiave tanto quanto la capacità di collegare gli allarmi correlati per ridurre il carico del processo. Due elementi fondamentali di questo passaggio sono anche la visualizzazione e il monitoraggio, che il servizio OpenSearch di Amazon realizza con un componente chiamato dashboard di OpenSearch. Puoi inoltre analizzare interattivamente i dati con strumenti come PPL.
Investigare
L’investigazione è il passaggio che richiede più tempo durante un evento operativo e generalmente l'impegno di più persone. È inoltre il fattore principale del Mean Time to Incident (MTTI) e del Mean Time to Recovery (MTTR). Farsi strada in mezzo al rumore e comprendere dove focalizzarsi è un passaggio molto complicato. Utilizzare i log, le metriche e il tracing ti aiuta a condurre rapidamente la root cause analysis, riuscendo a mettere correttamente in relazione questi tre strumenti su AWS, on-premise o su altri cloud. Puoi collaborare all'investigazione e documentare l'analisi con i notebook delle dashboard di OpenSearch.
Risolvi
Dopo aver identificato la causa del problema, devi rimediare. Non c'è niente di peggio di provare a risolvere un problema e peggiorare ulteriormente la situazione. Non dimenticare di realizzare un'analisi post-evento per determinare il modo in cui avresti potuto prevenire il problema. Prendi nota delle modifiche suggerite per prevenire il problema in futuro. L'obiettivo deve essere quello di assicurarsi che il problema non si ripresenti e, se succede, di saperlo identificare e risolvere in modo automatico.
Monitoraggio delle prestazioni delle applicazioni
A volte il monitoraggio delle prestazioni delle applicazioni (APM) è il primo livello di maturità dell'osservabilità. Ma l'APM da solo non basta. Le prestazioni della tua applicazione sono quelle sperate, anche se la dashboard di monitoraggio dell'applicazione è verde? I clienti ricevono l'esperienza utente che cercano? Qual è l'utilizzo dell'applicazione? Quale parte dell'applicazione tocca i limiti imposti? Da quale area geografica noti la crescita maggiore? Quale tendenza puoi visualizzare e pianificare? Se potessi raccogliere le metriche, avresti la sicurezza, quando sviluppi un nuovo codice o cambi infrastruttura, di vedere l'impatto dei cambiamenti. L'osservabilità aiuta l'APM a rispondere a tutte queste domande.