Pourquoi choisir Glue ?
Avec AWS Glue, vous payez un taux horaire facturé à la seconde pour les robots (la recherche de données) et les tâches d’extraction, transformation et chargement ETL (traitement et chargement de données). Pour le catalogue de données AWS Glue, vous payez des frais mensuels simplifiés pour stocker et accéder aux métadonnées. Le premier million d'objets stockés est gratuit, ainsi que le premier million d'accès. Si vous mettez en service un point de terminaison de développement pour développer votre code ETL de façon interactive, vous payez un taux horaire facturé à la seconde. Pour AWS Glue DataBrew, les séances interactives sont facturées par séance et les tâches DataBrew sont facturées par minute. L'utilisation d'AWS Glue Schema Registry est proposée sans frais supplémentaires.
Remarque : la tarification peut varier en fonction de la région AWS.
-
Tâches ETL et sessions interactives
-
Catalogue de données
-
Crawlers
-
Séances interactives DataBrew
-
Tâches DataBrew
-
Qualité des données
-
Tâches ETL et sessions interactives
-
Exemples de tarification
Tâche ETL : imaginez une tâche AWS Glue Apache Spark qui s’exécute pendant 15 minutes et utilise 6 DPU. Le prix d'une DPU par heure est de 0,44 USD. Comme votre tâche a duré 1/4 d’heure et utilisé 6 DPU, AWS vous facturera 6 DPU * 1/4 d’heure * 0,44 USD, soit 0,66 USD.
Blocs-notes de tâches et sessions interactives AWS Glue Studio : imaginons que vous utilisiez un bloc-note dans AWS Glue Studio pour développer votre code ETL de manière interactive. Une session interactive a 5 DPU par défaut. Si la session tourne pendant 24 minutes, soit 2/5 d'une heure, il vous sera facturé un montant de 5 DPU * 2/5 d'une heure à un taux de 0,44 USD par DPU par heure, soit 0,88 USD.
ML Transforms : tout comme l'exécution de tâches AWS Glue, le coût d'exécution de ML Transforms, y compris de FindMatches sur vos données, varie en fonction de la taille de vos données, de leur contenu et du nombre, ainsi que du type, de nœuds que vous utilisez. Dans l'exemple suivant, nous avons utilisé FindMatches pour intégrer des informations sur des points d'intérêt de plusieurs sources de données. Avec une taille de jeux de données d'environ 11 000 000 de lignes (1,6 Go), une taille de donnée d'étiquette (exemples de correspondances ou de non-correspondances vraies) d'environ 8 000 lignes (641 Ko), s'exécutant sur 16 instances de type G.2x, vous auriez un délai d'exécution de génération d'ensemble d'étiquettes de 34 minutes au prix de 8,23 USD, un délai d'exécution d'estimation des métriques de 11 minutes au prix de 2,66 USD et un délai d'exécution de tâche FindingMatches de 32 minutes au prix de 7,75 USD.
-
Catalogue de données
-
Exemples de tarification
Offre gratuite pour le catalogue de données AWS Glue : imaginons que vous stockiez un million de tables dans votre catalogue de données AWS Glue pour un mois donné et que vous fassiez un million de requêtes d'accès à ces tables. Vous devez payer 0 USD, car votre utilisation rentre dans l'offre gratuite du catalogue de données AWS Glue. Le premier million d'objets stockés et le premier million de requêtes passées sont gratuits.
Catalogue de données AWS Glue : imaginons maintenant que votre utilisation du stockage reste la même, un million de tables par mois, mais que le nombre de vos requêtes double pour atteindre deux millions de requêtes par mois. De plus, imaginons également que vous utilisez des crawlers pour trouver de nouvelles tables et qu'ils fonctionnent pendant 30 minutes en consommant 2 DPU.
Vos frais de stockage restent à 0 USD, étant donné que le stockage du premier million de tables est gratuit. Votre premier million de requêtes est également gratuit. Vous serez facturé pour le premier million de requêtes au-delà de l'offre gratuite, ce qui équivaut à 1 USD. Les crawlers sont facturés au taux de 0,44 USD par DPU par heure, vous devrez donc payer pour 2 DPU * 1/2 heure à un taux de 0,44 USD par DPU par heure, soit 0,44 USD.
Si vous générez des statistiques sur des tables Glue et que l'exécution des statistiques prend 10 minutes et consomme 1 DPU, vous serez facturé 1 DPU* 1/6 heure* 0,44 USD/DPU/heure, soit 0,07 USD.
Si vous compactez des tables Apache Iceberg et que le compactage dure 30 minutes et consomme 2 DPU, vous serez facturé 2 DPU* 1/2 heure* 0,44 USD/heure, soit 0,44 USD par heure. -
Crawlers
-
-
Séances interactives DataBrew
-
Exemples de tarification
AWS Glue DataBrew : Le prix pour chaque séance interactive de 30 minutes s'élève à 1,00 USD. Si vous démarrez une séance à 9h00, et si vous quittez immédiatement la console et n'y revenez qu'entre 9h20 et 9h30, vous serez facturé pour 1 séance, pour un total de 1,00 USD.
Si vous démarrez un séance à 9h00 et que vous interagissez avec la console DataBrew jusqu'à 9h50, quittez l'espace de projet DataBrew et revenez-y pour la dernière interaction à 10h15. Ainsi, vous serez facturé pour 3 séances et donc un total de 1,00 USD, à raison de 3,00 USD par séance.
-
Tâches DataBrew
-
Exemples de tarification
AWS Glue DataBrew : Si une tâche AWS Glue DataBrew s'exécute pendant 10 minutes et consomme 5 nœuds DataBrew, le prix s'élève à 0,40 USD. Votre tâche ayant été exécutée pendant 1/6 d'heure et ayant consommé 5 nœuds, votre facturation est de 5 nœuds x 1/6 heure/nœud x 0,48 USD/nœud-heure = 0,40 USD.
-
Qualité des données
-
La qualité des données d’AWS Glue renforce la confiance dans vos données en vous aidant à obtenir une qualité de données élevée. Il mesure, surveille et gère automatiquement la qualité des données dans vos lacs de données et vos pipelines en facilitant l'identification des données manquantes, périmées ou mauvaises.
Vous pouvez accéder aux fonctionnalités de Catalogue de données AWS Glue et AWS Glue Studio et par le biais des API AWS Glue.
Tarification pour la gestion de la qualité des données des jeux de données catalogués dans le catalogue de données :Vous pouvez choisir un jeu de données dans le catalogue de données et générer des recommandations. Cette action créera une tâche de recommandation pour laquelle vous fournirez des unités de traitement de données (DPU). Après avoir obtenu les recommandations, vous pouvez modifier ou ajouter de nouvelles règles et les programmer. Ces tâches sont appelées tâches de qualité des données pour lesquelles vous allez fournir des DPU. Vous aurez besoin d’un minimum de 2 DPU avec une durée de facturation minimale d’une minute.
Tarification pour la gestion de la qualité des données des jeux de données traités sur AWS Glue ETL :Vous pouvez également ajouter des contrôles de qualité des données à vos tâches ETL afin d’empêcher les mauvaises données d’entrer dans les lacs de données. Ces règles de qualité des données résideront dans vos tâches ETL, ce qui entraînera une augmentation du temps d’exécution ou de la consommation de DPU. Vous pouvez également utiliser l’exécution flexible pour les charges de travail non sensibles aux SLA.
Tarification de la détection d’anomalies dans AWS Glue ETL :
Détection des anomalies :
Vous devrez payer 1 DPU par statistique en plus des DPU de vos tâches ETL pendant le temps nécessaire à la détection des anomalies. En moyenne, il faut entre 10 et 20 secondes pour détecter une anomalie pour une statistique. Supposons que vous ayez configuré deux règles (Règle 1 : le volume de données doit être supérieur à 1 000 enregistrements, Règle 2 : le nombre de colonnes doit être supérieur à 10) et un analyseur (Analyseur 1 : contrôle de l’exhaustivité d’une colonne). Cette configuration générera trois statistiques : le nombre de lignes, le nombre de colonnes et le pourcentage de complétude d’une colonne. Trois DPU supplémentaires vous seront facturés pour le temps nécessaire à la détection des anomalies, avec un minimum d’une seconde. Voir l’exemple 4 pour plus de détails.
Réentraînement :
Vous voudrez peut-être exclure les exécutions de tâches ou les statistiques anormales afin que l’algorithme de détection des anomalies prédise avec précision les anomalies ultérieures. Pour ce faire, AWS Glue vous permet d’exclure ou d’inclure des statistiques. Vous devrez dépenser 1 DPU pour entraîner de nouveau le modèle pendant le temps nécessaire à l’entraînement. En moyenne, le réentraînement prend de 10 secondes à 20 minutes par statistique. Voir l’exemple 5 pour plus de détails.
Stockage des statistiques :
Le stockage des statistiques collectées est gratuit. Il y a une limite de 100 000 statistiques par compte et elles seront stockées pendant 2 ans.
Frais supplémentaires :
AWS Glue traite les données directement à partir d’Amazon Simple Storage Service (Amazon S3). Il n’y a pas de frais de stockage supplémentaires pour la lecture de vos données avec AWS Glue. Le stockage, les requêtes et le transfert de données sont facturés selon les tarifs Amazon S3 standard. En fonction de votre configuration, les fichiers temporaires, les résultats de la qualité des données et les fichiers de brassage sont stockés dans un compartiment S3 de votre choix et sont également facturés aux tarifs S3 standard.
Si vous utilisez le catalogue de données, le tarif standard du catalogue de données AWS Glue s'applique. Pour plus d’informations, cliquez sur l’onglet Stockage et requêtes du catalogue de données.
Exemples de tarification
Exemple 1 – Obtenir des recommandations pour une table dans le catalogue de donnéesPar exemple, considérons une tâche de recommandation avec 5 DPU qui se termine en 10 minutes. Vous paierez 5 DPUs * 1/6 heure * 0,44 USD, soit 0,37 USD.
Exemple 2 – Évaluer la qualité des données dans une table dans le Catalogue de données AWS GlueAprès avoir examiné les recommandations, vous pouvez les modifier si nécessaire, puis planifier la tâche de qualité des données en approvisionnant les DPU. Par exemple, considérons une tâche de l’évaluation de la qualité des données avec 5 DPU qui se termine en 20 minutes.
Vous paierez 5 DPU * 1/3 heure * 0,44 USD, soit 0,73 USD.
Exemple 3 – Évaluer la qualité des données dans une tâche AWS Glue ETLVous pouvez également ajouter ces contrôles de qualité des données à vos tâches ETL AWS Glue afin d'empêcher les mauvaises données d'entrer dans vos lacs de données. Vous pouvez le faire en ajoutant Data Quality Transform sur AWS Glue Studio ou en utilisant les API AWS Glue dans le code que vous rédigez dans les blocs-notes AWS Glue Studio. Prenons l'exemple d'une tâche AWS Glue qui s'exécute là où les règles de qualité des données sont configurées dans le pipeline, et qui s'exécute pendant 20 minutes (1/3 d'heure) avec 6 DPU. Vous serez facturé 6 DPU * 1/3 heure * 0,44 USD, soit 0,88 USD. Vous pouvez également utiliser le Flex, pour lequel vous serez facturé 6 DPU * 1/3 heure * 0,29 USD, soit 0,58 USD.
Exemple 4 – Évaluer la qualité des données dans une tâche AWS Glue ETL avec détection d’anomalies
Considérez une tâche AWS Glue qui lit des données à partir d’Amazon S3, transforme les données et exécute des contrôles de qualité des données avant de les charger sur Amazon Redshift. Supposons que ce pipeline comportait 10 règles et 10 analyseurs, ce qui a permis de recueillir 20 statistiques. Supposons également que l’extraction, le processus de transformation, le chargement, la collecte de statistiques et l’évaluation de la qualité des données prendront 20 minutes. Si la détection des anomalies n’est pas activée, le client sera facturé 6 DPU * 1/3 heure (20 minutes) * 0,44 USD, soit 0,88 USD (A). Lorsque la détection des anomalies est activée, nous ajouterons 1 DPU pour chaque statistique et la détection des anomalies prendra en moyenne 15 secondes. Dans cet exemple, le client devra payer 20 statistiques * 1 DPU * 15/3 600 (0,0041 heure/statistique) * 0,44 USD (coût par DPU/heure) = 0,037 USD (B). Le coût total de la tâche sera de 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.
Exemple 5 – RéentraînementSupposons que votre tâche Glue a détecté une anomalie. Vous décidez d’exclure l’anomalie du modèle afin que l’algorithme de détection des anomalies puisse prédire les anomalies futures avec précision. Pour ce faire, vous pouvez entraîner de nouveau le modèle en excluant cette statistique anormale. Vous devrez payer 1 DPU par statistique pendant le temps nécessaire pour entraîner de nouveau le modèle. En moyenne, cela peut prendre 15 secondes. Dans cet exemple, en supposant que vous excluez 1 point de données, vous obtiendrez 1 statistique * 1 DPU * 15/3 600 (0,0041 heure/statistique) * 0,44 USD = 0,00185 USD.
Remarque : la tarification peut varier en fonction de la région.
Consultez le tableau des régions mondiales pour en savoir plus sur la disponibilité d'AWS Glue.