Amazon OpenSearch Ingestion

Ingérez, transformez et acheminez des données à grande échelle vers les domaines Amazon OpenSearch et les collections sans serveur

Pourquoi choisir Amazon OpenSearch Service pour l’ingestion ?

Amazon OpenSearch Ingestion est une fonctionnalité d'Amazon OpenSearch Service qui vous permet d'ingérer, de filtrer, de transformer, d'enrichir et d'acheminer des données vers un domaine Amazon OpenSearch ou une collection sans serveur. Amazon OpenSearch Ingestion est capable d'ingérer des données provenant d'un large éventail de sources et dispose d'un riche écosystème de processeurs intégrés pour répondre à vos besoins de transformation de données les plus complexes. Amazon OpenSearch Ingestion fonctionne par nature sans serveur et évoluera automatiquement pour répondre aux exigences de vos charges de travail les plus exigeantes. Vous pouvez ainsi vous concentrer sur votre logique métier tout en vous débarrassant de la complexité de la gestion de pipelines de données complexes pour vos cas d'utilisation en matière d'observabilité et de sécurité.

Avantages d’Amazon OpenSearch Service

Réduisez les coûts de stockage en dédupliquant, en échantillonnant et en acheminant les données bruyantes vers un stockage à moindre coût.
Renforcez la qualité des données en les transformant, en les filtrant et en les enrichissant à l'aide de processeurs intégrés et en adoptant des schémas pour accélérer l'observabilité et réduire les délais d’examen de sécurité.
Protégez les données sensibles en rédigeant et en masquant les informations sensibles avant qu'elles n'arrivent à destination.
Acheminez les données à l'aide d'une logique conditionnelle afin de garantir la conformité aux lois sur la résidence des données.

Fonctionnalités principales

AWS est l’un des principaux contributeurs du projet OpenSearch, qu’utilisent de nombreux clients. Vous obtiendrez toutes les innovations pour OpenSearch Data Prepper au sein de ce service géré. Au-delà de ces fonctionnalités, auxquelles la communauté participe et contribue, Amazon OpenSearch Ingestion Service propose également les suivantes :

  • Installation de logiciels gérés par AWS et correctifs
  • AWS surveille et répare le service, 24 heures sur 24, 7 jours sur 7.
  • AWS met les versions à niveau.
  • Aucun temps d'arrêt pour les mises à jour et les mises à niveau
  • SLA en matière de disponibilité : 99,9 %
  • Sans serveur, avec autoscaling pour les charges de travail d'ingestion

Clients et partenaires

Évaluation client de CyberArk

« Chez CyberArk EPM (Endpoint Privilege Manager), un système multiple basé sur le cloud, nous gérons des millions de points de terminaison et collectons des événements de données à fort trafic à l'aide d'AWS OpenSearch. En tirant parti d'Amazon OpenSearch Ingestion, nous avons remplacé notre ancien pipeline Logstash autogéré par un pipeline géré par AWS, ce qui nous a permis de nous affranchir de la gestion de notre propre infrastructure et nous a fourni une architecture plus évolutive, rentable, fiable et sécurisée pour notre ingestion de données. Cette décision a été prise avec l'avantage supplémentaire que CyberArk EPM a obtenu le statut FedRAMP High In-Process, alors qu'Amazon OpenSearch Ingestion est déjà conforme à FedRAMP, ce qui nous permet de maintenir un haut niveau de sécurité dans notre offre ».

Ori Doolman, architecte logiciel senior - CyberArk EPM

Logo CyberArk

Évaluation client de Calyptia

« Chez Calyptia, nous travaillons sur l'ingestion de données depuis plus de 12 ans en tant que créateurs et responsables du projet Cloud Native Computing Foundation, Fluentd et Fluent Bit. Avec les dernières versions de ces projets, nous sommes impatients de permettre aux utilisateurs d'avoir plus de contrôle dès le début grâce à la combinaison des projets Fluent et du service d'ingestion OpenSearch. Grâce au service d'ingestion, les utilisateurs peuvent continuer à faire évoluer les agents et le traitement sans avoir à se soucier de la gestion et de la maintenance de l'infrastructure ».

Anurag Gupta, cofondateur de Calyptia

Logo Calyptia

Évaluation client de Confluent

« Nous sommes ravis de collaborer avec l'équipe Amazon OpenSearch alors qu'elle développe son service OpenSearch Ingestion, qui fournira une intégration native avec Apache Kafka et Confluent. Cette intégration aidera nos clients communs à accéder à des données en temps réel via Apache Kafka au sein d'OpenSearch afin qu'ils puissent repenser les expériences client, créer des opérations de backend en temps réel ou lancer de nouveaux produits et services. En tant que principal contributeur à Apache Kafka, Confluent a multiplié Kafka par 10 en développant une plateforme de streaming de données complète et native pour le cloud qui vous permet de transférer des données depuis l'endroit où elles ont été créées vers un endroit où les entreprises peuvent agir dans le monde multi-SaaS dans lequel nous vivons tous. Cela permet aux utilisateurs d'OpenSearch de bénéficier des centaines de sources de données auxquelles Confluent est intégré. Nous sommes impatients de voir ce que nos clients communs vont créer en mettant des données en mouvement avec Confluent et OpenSearch ».

Paul Mac Farland, vice-président de Partner & Innovation Ecosystem - Confluent

Logo Confluent

Questions fréquentes sur l’ingestion

Amazon OpenSearch Ingestion est un niveau d'ingestion de données qui vous permet de filtrer, d'enrichir, de transformer, de normaliser et d'agréger des données à des fins d'analyse et de visualisation en aval dans les domaines Amazon OpenSearch et les collections Amazon OpenSearch sans serveur. Amazon OpenSearch Ingestion vous permet de créer des pipelines de données personnalisés afin d'améliorer la vue opérationnelle de vos applications. La nature sans serveur d'Amazon OpenSearch Ingestion élimine les complexités liées à la gestion automatique des pipelines de données et garantit que les capacités de traitement de vos pipelines de données évoluent automatiquement en fonction des exigences de vos charges de travail. Avec Amazon OpenSearch Ingestion, vous pouvez

  • Réduisez les coûts de stockage grâce à la déduplication des données et à l'échantillonnage afin d'empêcher l'indexation de données bruyantes dans Amazon OpenSearch.
  • Renforcez la qualité des données et adoptez des schémas courants en transformant, en formatant et en enrichissant les données avant qu'elles ne soient indexées dans les domaines Amazon OpenSearch, ce qui facilite la résolution des problèmes.
  • Rédigez ou masquez les informations sensibles avant qu'elles n'arrivent à destination afin de vous conformer aux lois sur la résidence des données.

Un pipeline d'ingestion Amazon OpenSearch comprend trois composants principaux :

  • La source est le composant d'entrée d'un pipeline. Il définit le mécanisme par lequel un pipeline consomme des enregistrements. La source peut consommer des enregistrements soit en recevant des données via http/s, soit en les lisant à partir de points de terminaison tiers externes.
  • Les processeurs sont des unités de traitement intermédiaires qui peuvent filtrer, transformer et enrichir les enregistrements dans le format souhaité avant de les publier sur le récepteur. Le processeur est un composant optionnel d'un pipeline. Si vous ne définissez pas de processeur, les enregistrements sont publiés dans le format défini dans la source. Vous pouvez utiliser plusieurs processeurs. Les processeurs sont exécutés dans l'ordre dans lequel vous les avez définis dans le pipeline.
  • Le récepteur est le composant de sortie d'un pipeline. Il définit une ou plusieurs destinations vers lesquelles un pipeline publie des enregistrements. Un récepteur peut également être un autre pipeline, ce qui vous permet d'enchaîner plusieurs pipelines entre eux.

Amazon OpenSearch prend en charge l'ingestion de tous les types de données que vous indexeriez normalement dans un domaine Amazon OpenSearch. Cela inclut, sans toutefois s'y limiter, les données structurées, non structurées, textuelles, numériques et géospatiales. OpenSearch Ingestion prend également en charge l'ingestion des trois piliers des données d'observabilité : journaux, métriques et traces. Vous pouvez utiliser OpenSearch Ingestion ainsi que sa prise en charge d'un riche écosystème de sources de données, de processeurs et de récepteurs pour transformer vos données avant de les stocker dans des domaines Amazon OpenSearch. Avec OpenSearch Ingestion, vous n'avez plus besoin d'écrire une fonction lambda personnalisée ni de gérer vous-même les nœuds d'ingestion Logstash et Elasticsearch pour ingérer des données qui doivent être indexées dans des clusters Amazon OpenSearch. Consultez notre page de documentation pour consulter la liste des sources, des processeurs et des récepteurs pris en charge par Amazon OpenSearch Ingestion.

Amazon OpenSearch Ingestion est un niveau d'ingestion de données qui prétraite les données avant qu'elles ne soient indexées dans Amazon OpenSearch Service. OpenSearch Ingestions est construit avec Data Prepper, qui est un composant du projet OpenSearch et prend en charge tous les formats de données, les sources, les processeurs et les récepteurs pris en charge par Data Prepper.

Pour commencer à utiliser Amazon OpenSearch Ingestion, vous devez commencer par définir un pipeline de données. Un pipeline d'ingestion OpenSearch est au cœur de votre logique métier et se compose d'une source, d'un processeur unique ou d'une série de processeurs et d'un récepteur. Vous définissez la configuration de votre pipeline via un fichier YAML qui contient les détails de votre source, de vos processeurs et de vos récepteurs. OpenSearch Ingestion vous permet également de configurer une capacité minimale et maximale des unités de calcul OpenSearch pour l'ingestion (OCU) que vous souhaitez définir par pipeline. Enfin, vous pouvez choisir la manière dont vos données parviennent à vos pipelines d'ingestion OpenSearch :

  • Accès au VPC : pour l'accès au VPC, nous établissons un lien privé entre votre VPC et le pipeline d'ingestion Amazon OpenSearch. Cela fournit une connectivité privée à vos pipelines sans exposer votre trafic à l'Internet public.
  • Accès public : Dans cette configuration réseau, les données de vos pipelines OpenSearch circulent sur l'Internet public.

Vous pouvez commencer par créer un pipeline de données via la console AWS ou la ligne de commande AWS.