Encuentre y solucione eficazmente los problemas, mejore el estado de las aplicaciones y ofrezca mejores experiencias a los clientes
Las tres señales fundamentales de observabilidad son las métricas, los registros (datos semiestructurados) y los seguimientos (flujos de solicitudes de principio a fin en todas las dependencias) Estas señales son el resultado de entornos monitoreados, como contenedores, microservicios y aplicaciones El objetivo es proporcionar una experiencia integrada para DevOps y Site Reliability Engineers para aislar eventos críticos y usar todas las señales de observabilidad para aislar problemas en aplicaciones en contenedores y microservicios que se ejecutan en cualquier lugar Amazon OpenSearch Service combina análisis de datos de registros y seguimientos en una solución única.
Operaciones de observabilidad
Amazon OpenSearch Service proporciona nuevas capacidades para ayudar a resolver sus problemas de observabilidad.
Características
Use interfaces abiertas para recopilar, enrutar y transformar los datos de telemetría (incluidas OpenTelemetry, Fluentd, Fluent Bit, Logstash y Data Prepper, entre otras). Puede buscar y analizar grandes cantidades de datos semiestructurados con capacidades nativas. Puede visualizar, monitorear y alertar con detección de anomalías características de observabilidad de OpenSearch Dashboards, y realizar un análisis interactivo y visualización de datos con el lenguaje de procesamiento de canalizaciones (PPL), una interfaz de consulta.
Recopilaciones
Primero, debe recopilar datos para analizar. La recopilación incluye reunir, enriquecer, filtrar, transformar y normalizar datos de múltiples fuentes.
Detección
Por lo general, los clientes no detectan los problemas ni bien surgen, suele haber un desfase entre el momento en que inicia un problema y el momento en que se le notifica. Reduzca esto tanto como sea posible. La detección debe ser proactiva y multifacética (como las alarmas de telemetría). La detección de anomalías es una herramienta clave, así como la capacidad de vincular alarmas relacionadas para reducir la fatiga de alarmas. Un componente central de la detección es la visualización y el monitoreo, que Amazon OpenSearch Service lleva a cabo con un componente llamado OpenSearch Dashboards. Incluso puede analizar los datos de forma interactiva con herramientas como PPL.
Investigación
La investigación es donde las personas pasan la mayor parte del tiempo durante un evento operativo y, por lo general, involucra a varias personas. Este es el mayor contribuyente al tiempo medio de incidente (MTTI) y al tiempo medio de recuperación (MTTR). Atravesar el caos y entender en qué enfocarse sigue siendo una tarea difícil. Utilice los registros, las métricas y el rastreo para realizar de forma rápida un análisis de la causa raíz, al mismo tiempo que correlaciona las métricas, los registros y los rastreos, en AWS, en las instalaciones o en otras nubes. Colabore en las investigaciones y documente el análisis con los cuadernos de OpenSearch Dashboard.
Solucione
Después de identificar la causa de un error, debe remediarlo. No hay nada peor que tratar de ajustar algo y empeorar la situación No olvide hacer un análisis posterior al evento para determinar cómo podría haber evitado la falla en primer lugar. Documente los cambios propuestos para que pueda evitar que el problema vuelva a ocurrir. Su objetivo debe ser asegurarse de que nunca vuelva a ocurrir el mismo problema, pero si sucede, poder identificarlo y remediarlo de forma automática.
Monitoreo del rendimiento de la aplicación
A veces, el Monitoreo del rendimiento de la aplicación (APM) es el primer nivel de madurez de la observabilidad. Sin embargo, APM por sí solo no es suficiente. ¿Su aplicación está funcionando realmente como se esperaba, incluso si el panel de monitoreo de su aplicación está todo en verde? ¿Sus clientes obtienen la experiencia de usuario que necesitan? ¿Cuál es el uso de su aplicación? ¿Qué partes de su aplicación están llegando a los límites de escala? ¿Desde qué región geográfica está viendo el mayor crecimiento? ¿Qué tendencias puede visualizar y planificar? Si pudiera recopilar métricas, podría estar seguro de que cuando implemente código nuevo o cambie su infraestructura, podrá ver el impacto de estos cambios. La observabilidad acelera el APM para responder a estas preguntas adicionales.