Encuentre y solucione eficazmente los problemas, mejore el estado de las aplicaciones y ofrezca mejores experiencias a los clientes

Las tres señales fundamentales de observabilidad son las métricas, los registros (datos semiestructurados) y los seguimientos (flujos de solicitudes de principio a fin en todas las dependencias) Estas señales son el resultado de entornos monitoreados, como contenedores, microservicios y aplicaciones El objetivo es proporcionar una experiencia integrada para DevOps y Site Reliability Engineers para aislar eventos críticos y usar todas las señales de observabilidad para aislar problemas en aplicaciones en contenedores y microservicios que se ejecutan en cualquier lugar Amazon OpenSearch Service combina análisis de datos de registros y seguimientos en una solución única.

Operaciones de observabilidad

Amazon OpenSearch Service proporciona nuevas capacidades para ayudar a resolver sus problemas de observabilidad.

Características

Use interfaces abiertas para recopilar, enrutar y transformar los datos de telemetría (incluidas OpenTelemetry, Fluentd, Fluent Bit, Logstash y Data Prepper, entre otras). Puede buscar y analizar grandes cantidades de datos semiestructurados con capacidades nativas. Puede visualizar, monitorear y alertar con detección de anomalías características de observabilidad de OpenSearch Dashboards, y realizar un análisis interactivo y visualización de datos con el lenguaje de procesamiento de canalizaciones (PPL), una interfaz de consulta.

Recopilaciones

Primero, debe recopilar datos para analizar. La recopilación incluye reunir, enriquecer, filtrar, transformar y normalizar datos de múltiples fuentes.

Detección

Por lo general, los clientes no detectan los problemas ni bien surgen, suele haber un desfase entre el momento en que inicia un problema y el momento en que se le notifica. Reduzca esto tanto como sea posible. La detección debe ser proactiva y multifacética (como las alarmas de telemetría). La detección de anomalías es una herramienta clave, así como la capacidad de vincular alarmas relacionadas para reducir la fatiga de alarmas. Un componente central de la detección es la visualización y el monitoreo, que Amazon OpenSearch Service lleva a cabo con un componente llamado OpenSearch Dashboards. Incluso puede analizar los datos de forma interactiva con herramientas como PPL.

Investigación

La investigación es donde las personas pasan la mayor parte del tiempo durante un evento operativo y, por lo general, involucra a varias personas. Este es el mayor contribuyente al tiempo medio de incidente (MTTI) y al tiempo medio de recuperación (MTTR). Atravesar el caos y entender en qué enfocarse sigue siendo una tarea difícil. Utilice los registros, las métricas y el rastreo para realizar de forma rápida un análisis de la causa raíz, al mismo tiempo que correlaciona las métricas, los registros y los rastreos, en AWS, en las instalaciones o en otras nubes. Colabore en las investigaciones y documente el análisis con los cuadernos de OpenSearch Dashboard.

Solucione

Después de identificar la causa de un error, debe remediarlo. No hay nada peor que tratar de ajustar algo y empeorar la situación No olvide hacer un análisis posterior al evento para determinar cómo podría haber evitado la falla en primer lugar. Documente los cambios propuestos para que pueda evitar que el problema vuelva a ocurrir. Su objetivo debe ser asegurarse de que nunca vuelva a ocurrir el mismo problema, pero si sucede, poder identificarlo y remediarlo de forma automática.

Monitoreo del rendimiento de la aplicación

A veces, el Monitoreo del rendimiento de la aplicación (APM) es el primer nivel de madurez de la observabilidad. Sin embargo, APM por sí solo no es suficiente. ¿Su aplicación está funcionando realmente como se esperaba, incluso si el panel de monitoreo de su aplicación está todo en verde? ¿Sus clientes obtienen la experiencia de usuario que necesitan? ¿Cuál es el uso de su aplicación? ¿Qué partes de su aplicación están llegando a los límites de escala? ¿Desde qué región geográfica está viendo el mayor crecimiento? ¿Qué tendencias puede visualizar y planificar? Si pudiera recopilar métricas, podría estar seguro de que cuando implemente código nuevo o cambie su infraestructura, podrá ver el impacto de estos cambios. La observabilidad acelera el APM para responder a estas preguntas adicionales.

computadora que muestra el monitoreo del rendimiento

Clientes

Chase International: experiencia del cliente siempre activa a escala
Dow Jones y 3M: observabilidad con Amazon OpenSearch Service

Recursos de observabilidad

Mostrando 1 - 8 (11)

Temas de la página

Aspectos generales

Aspectos generales

El análisis de seguimiento es una nueva característica de Amazon OpenSearch Service que permite a los desarrolladores y a los operadores de TI encontrar y solucionar los problemas de rendimiento en las aplicaciones distribuidas, lo que se traduce en tiempos de resolución de problemas más rápidos. El análisis de seguimiento se creó mediante OpenTelemetry, un proyecto de Cloud Native Computing Foundation (CNCF) que proporciona un único conjunto de API, bibliotecas, agentes y servicios de recopilación para capturar métricas y rastreos distribuidos, lo que permite a los clientes analizar los rastreos sin tener que volver a instrumentar las aplicaciones. El análisis de seguimiento se basa en el proyecto OpenSearch, que es de código abierto y está disponible gratuitamente para que cualquiera pueda descargarlo y utilizarlo.

Los desarrolladores y el departamento de operaciones de TI necesitan el análisis de rastreos para encontrar y solucionar problemas de rendimiento en las aplicaciones distribuidas. Mediante la incorporación de datos de rastros a las capacidades de análisis de registros existentes de Amazon OpenSearch Service, los clientes pueden utilizar el mismo servicio para aislar el origen de los problemas de rendimiento y diagnosticar la causa raíz de estos. Además, al ser compatible con el estándar OpenTelemetry, el análisis de seguimiento admite la integración con los SDK de Jaeger y Zipkin, dos sistemas conocidos de rastreo distribuido de código abierto, lo que permite que los desarrolladores continúen con el uso de estos SDK y no tengan que volver a instrumentar las aplicaciones.

El análisis de seguimiento es una característica integrada de Amazon OpenSearch Service. Está disponible para todos los clientes sin cargo adicional. El análisis de rastreos cuenta con una interfaz de usuario basada en OpenSearch Dashboards y Kibana para visualizar y explorar los datos de rastros. Además, se integra con características clave de Amazon OpenSearch Service, como la detección de anomalías, las alertas, el control de acceso detallado y la seguridad empresarial. Al resolver los problemas de rendimiento de las aplicaciones, el análisis de rastreos complementa el uso de Amazon OpenSearch Service por parte de los clientes para la búsqueda y el análisis de los datos de registro.

Actualmente, el análisis de seguimiento admite la recopilación de datos de rastreo procedentes de las bibliotecas de aplicaciones y los SDK compatibles con el recopilador de OpenTelemetry de código abierto, incluidos los SDK de Jaeger, Zipkin y X-Ray. El análisis de seguimiento también se integra con AWS Distro para OpenTelemetry, una distribución de recopiladores o agentes, SDK y API de OpenTelemetry. Se trata de una distribución segura y de alto rendimiento de los componentes de OpenTelemetry que ha sido probada para su uso en producción y se basa en AWS. Los clientes pueden utilizar AWS Distro para OpenTelemetry para recopilar rastros y métricas para varias soluciones de monitoreo, incluidas Amazon OpenSearch Service y AWS X-Ray para datos de rastros y Amazon CloudWatch para métricas.

Para comenzar a usar el análisis de seguimiento, lea la documentación aquí.