Ingesta de Amazon OpenSearch

Ingiera, transforme y enruta datos a escala a dominios de OpenSearch y colecciones sin servidor

¿Por qué elegir Ingesta de Amazon OpenSearch Service?

Ingesta de Amazon OpenSearch es una característica de Amazon OpenSearch Service que permite ingerir, filtrar, transformar, enriquecer y enrutar datos a un dominio de Amazon OpenSearch o a una colección sin servidor. Ingesta de Amazon OpenSearch es capaz de recopilar datos de una amplia variedad de orígenes y cuenta con un rico ecosistema de procesadores integrados para atender sus necesidades de transformación de datos más complejas. Ingesta de Amazon OpenSearch no tiene servidores de serie y escalará automáticamente para cumplir con los requisitos de sus cargas de trabajo más exigentes, lo que le ayudará a centrarse en la lógica empresarial y, al mismo tiempo, a reducir la complejidad de administrar canalizaciones de datos complejas para sus casos prácticos de observabilidad y seguridad.

Beneficios de Amazon OpenSearch Service

Reduzca los costos de almacenamiento mediante la deduplicación, el muestreo y el enrutamiento de los datos ruidosos para reducir el costo del almacenamiento.
Mejore la calidad de los datos al transformar, filtrar y enriquecer los datos con procesadores integrados y adoptar esquemas para acelerar la observabilidad y reducir los tiempos de investigación de la seguridad.
Proteja los datos confidenciales al ocultar y difuminar la información confidencial antes de que llegue a su destino.
Enrute los datos mediante lógica condicional para cumplir con las leyes de residencia de datos.

Características principales

AWS es uno de los principales contribuyentes al proyecto OpenSearch, que utilizan muchos clientes. Obtendrá todas las nuevas innovaciones para Data Prepper de OpenSearch dentro de este servicio administrado. Aparte de esas características, impulsadas por la comunidad y a las que la comunidad contribuye, Ingesta de Amazon OpenSearch Service también ofrece estas capacidades:

  • Instalación e implementación de revisiones de software administradas por AWS
  • AWS supervisa y repara el servicio las 24 horas, los 7 días de la semana
  • AWS actualiza las versiones
  • Sin tiempo de inactividad para las actualizaciones
  • SLA de disponibilidad: 99,9 %
  • Sin servidor, con escalamiento automático para cargas de trabajo de ingesta

Clientes y socios

Comentario de un cliente de CyberArk

“En CyberArk EPM (Endpoint Privilege Manager), un sistema multiusuario basado en la nube, administramos millones de puntos de conexión y recopilamos eventos de datos de alto tráfico mediante AWS OpenSearch. Gracias a Ingesta de Amazon OpenSearch, sustituimos nuestra anterior canalización de Logstash autoadministrada por una administrada por AWS, lo que eliminó la carga que suponía administrar nuestra propia infraestructura y nos proporcionó una arquitectura más escalable, rentable, confiable y segura para la ingesta de datos. Esta decisión se tomó con la ventaja agregada de que CyberArk EPM obtuvo el estatus FedRAMP de nivel alto en proceso, mientras que Ingesta de Amazon OpenSearch ya cumple con FedRAMP, lo que nos permite mantener un alto nivel de seguridad en nuestra oferta”.

Ori Doolman, arquitecto de software sénior - CyberArk EPM

Logotipo de CyberArk

Comentario de un cliente de Calyptia

“En Calyptia llevamos más de 12 años trabajando con la ingesta de datos como creadores y responsables del proyecto Cloud Native Computing Foundation, Fluentd y Fluent Bit. Con las últimas versiones de estos proyectos, nos entusiasma que los usuarios puedan tener más control en su primera milla con la combinación de los proyectos de Fluent y el servicio de Ingesta de OpenSearch Service. Con el servicio de ingesta, los usuarios pueden seguir escalando los agentes y el procesamiento sin tener que preocuparse por la administración y el mantenimiento de la infraestructura”.

Anurag Gupta, cofundador de Calyptia

Logotipo de Calyptia

Comentario de un cliente de Confluent

“Estamos encantados de asociarnos con el equipo de Amazon OpenSearch para crear el servicio Ingesta de Amazon OpenSearch, que proporcionará una integración nativa con Apache Kafka y Confluent. Esta integración ayudará a nuestros clientes conjuntos a acceder a datos en tiempo real a través de Apache Kafka dentro de OpenSearch para que puedan replantearse las experiencias de los clientes, crear operaciones de backend en tiempo real o lanzar nuevos productos y servicios. Como principal contribuyente de Apache Kafka, Confluent ha superado por 10 a Kafka, ya que ha creado una plataforma de transmisión de datos completa y nativa en la nube que permite transferir datos desde cualquier lugar donde se creen a la ubicación donde las empresas pueden tomar medidas en el mundo multiSaaS en el que todos vivimos. Esto permite a los usuarios de OpenSearch beneficiarse de los cientos de orígenes de datos con los que está integrado Confluent. Nos entusiasma ver lo que nuestros clientes conjuntos crean al poner en marcha los datos con Confluent y OpenSearch”.

Paul Mac Farland, vicepresidente de socios y ecosistema de innovación - Confluent

Logotipo de Confluent

Preguntas frecuentes sobre la ingesta de datos

Ingesta de Amazon OpenSearch es un nivel de ingesta de datos que permite filtrar, enriquecer, transformar, normalizar y agregar datos para el análisis y la visualización posteriores en dominios de Amazon OpenSearch y colecciones de Amazon OpenSearch sin servidor. Ingesta de Amazon OpenSearch le permite crear canalizaciones de datos personalizadas para mejorar la visión operativa de sus aplicaciones. La naturaleza sin servidor de Ingesta de Amazon OpenSearch elimina las complejidades de las canalizaciones de datos autoadministrables y garantiza que las capacidades de procesamiento de las canalizaciones de datos se escalen automáticamente según las exigencias de sus cargas de trabajo. Con Ingesta de Amazon OpenSearch, puede hacer lo siguiente:

  • Reducir los costos de almacenamiento mediante la deduplicación de datos y el muestreo para evitar que se indexen datos ruidosos en Amazon OpenSearch.
  • Reforzar la calidad de los datos y adoptar esquemas comunes al transformar, formatear y enriquecer los datos antes de que se indexen en los dominios de Amazon OpenSearch, lo que facilita la solución de problemas.
  • Ocultar o difuminar la información confidencial antes de que llegue a un destino, para cumplir con las leyes de residencia de datos.

Una canalización de Ingesta de Amazon OpenSearch consta de tres componentes principales:

  • El origen es el componente de entrada de una canalización. Define el mecanismo a través del cual una canalización consume registros. El origen puede consumir registros al recibir datos a través de http/s o al leer desde puntos de conexión externos de terceros.
  • Los procesadores son unidades de procesamiento intermedias que pueden filtrar, transformar y enriquecer los registros en el formato deseado antes de publicarlos en el receptor. El procesador es un componente opcional de una canalización. Si no define un procesador, los registros se publican en el formato definido en el origen. Puede tener más de un procesador. Los procesadores se ejecutan en el orden en que se definen en la canalización.
  • El receptor es el componente de salida de una canalización. Define uno o más destinos en los que una canalización publica registros. Un receptor también puede ser otra canalización, lo que permite encadenar varias canalizaciones.

Amazon OpenSearch admite la ingesta de todos los tipos de datos que normalmente indexaría en un dominio de Amazon OpenSearch. Esto incluye, pero no de manera excluyente, datos estructurados, no estructurados, textuales, numéricos y geoespaciales. Ingesta de Amazon OpenSearch también permite la ingesta de los tres pilares de datos de observabilidad: registros, métricas y rastreos. Puede utilizar Ingesta de Amazon OpenSearch junto con su compatibilidad con un rico ecosistema de orígenes de datos, procesadores y receptores para transformar sus datos antes de almacenarlos en los dominios de Amazon OpenSearch. Con Ingesta de Amazon OpenSearch, ya no tendrá que escribir una función de Lambda personalizada ni autoadministrar los nodos de ingesta de Logstash y Elasticsearch para ingerir datos que deben indexarse en los clústeres de Amazon OpenSearch. Consulte nuestra página de documentación para ver la lista de orígenes, procesadores y receptores compatibles con Ingesta de Amazon OpenSearch.

Ingesta de Amazon OpenSearch es un nivel de ingesta de datos que preprocesa los datos antes de que se indexen en Amazon OpenSearch Service. Ingesta de OpenSearch se basa en Data Prepper, un componente del proyecto OpenSearch, y admite todos los formatos, orígenes, procesadores y receptores de datos compatibles con Data Prepper.

Para empezar a utilizar Ingesta de Amazon OpenSearch, comience por definir una canalización de datos. Una canalización de Ingesta de OpenSearch es el núcleo de su lógica empresarial y consiste en un origen, uno o varios procesadores y un receptor. Define la configuración de la canalización mediante un archivo YAML que contiene detalles del origen, los procesadores y los receptores. Ingesta de Amazon OpenSearch también le permite configurar una capacidad mínima y máxima de las unidades de computación para ingesta (OCU) de OpenSearch que desee configurar por canalización. Por último, puede elegir de qué manera sus llegan los datos a sus canalizaciones de Ingesta de OpenSearch:

  • Acceso a VPC: para acceder a la VPC, establecemos un enlace privado desde su VPC al canal de Ingesta de Amazon OpenSearch. Esto proporciona conectividad privada a sus canalizaciones sin exponer su tráfico a la Internet pública.
  • Acceso público: en esta configuración de red, los datos que van a las canalizaciones de OpenSearch fluyen a través de la Internet pública.

Puede empezar a crear una canalización de datos mediante la consola de AWS o la línea de comandos de AWS.