Perché scegliere Glue?

Con AWS Glue, ottieni una tariffa oraria, fatturata al secondo, per le operazioni dei crawler (individuazione di dati) e di estrazione, trasformazione e caricamento (ETL), (elaborazione e caricamento dei dati). Per il Catalogo dati AWS Glue, è prevista una tariffa mensile semplificata per l'archiviazione e l'accesso ai metadati. Il primo milione di oggetti memorizzato è gratuito, così come il primo milione di accessi. Se esegui il provisioning di un endpoint per sviluppare in modo interattivo il codice ETL, ti sarà addebitata una tariffa oraria, fatturata al secondo. Per AWS Glue DataBrew, le sessioni interattive sono fatturate a sessione e le attività DataBrew sono fatturate al minuto. L'uso del Registro degli schemi di AWS Glue è offerto senza costi aggiuntivi.

Nota: i prezzi possono variare in base alla Regione AWS.

  • Processi ETL e sessioni interattive
  • Esempi di prezzo

    Processo ETL: si consideri un processo AWS Glue Apache Spark che viene eseguito per 15 minuti e utilizzi 6 DPU. Il prezzo di 1 DPU/ora è 0,44 USD. Poiché il processo è stato eseguito per un 1/4 d'ora e ha utilizzato 6 DPU, AWS fatturerà 6 DPU * 1/4 ora * 0,44 USD, o 0,66 USD.

    Notebook di processi di AWS Glue Studio Job e sessioni interattive: si assuma di utilizzare un notebook in AWS Glue Studio per sviluppare il codice ETL in maniera interattiva. Per impostazione predeffinita, una sessione interattiva ha 5 DPU. Se mantieni in esecuzione la sessione per 24 minuti o 2/5 di un'ora, ti verrà fatturato l'equivalente di 5 DPU * 2/5 ora a 0,44 USD per DPU/ora o 0,88 USD.

    ML Transforms: analogamente ai processi AWS Glue, il costo di esecuzione di ML Transforms, inclusi i FindMatch sui tuoi dati, varia in base alla dimensione e al contenuto dei tuoi dati nonché al numero e al tipo di nodi che utilizzi. Nell'esempio seguente abbiamo utilizzato FindMatch per integrare informazioni sui punti di interesse provenienti da diverse origini dati. Con un set di dati di circa 11.000.000 di righe (1,6 GB), un volume di dati di etichette (esempi di vere corrispondenze o di vere non corrispondenze) di circa 8.000 righe (641 KB) in esecuzione su 16 istanze di tipo G.2x, il runtime per la generazione del set di etichette sarà di 34 minuti a un costo di 8,23 USD, per la stima dei parametri sarà di 11 minuti a un costo di 2,66 USD, mentre per l'esecuzione del processo FindMatch sarà di 32 minuti a un costo di 7,75 USD.

  • Catalogo dati
  • Esempi di prezzo

    Piano gratuito del Catalogo dati AWS Glue: supponiamo che tu archivi un milione di tabelle nel tuo Catalogo dati in un mese dato ed effettui un milione di richieste per accedere a queste tabelle. Il costo addebitato equivale a 0 USD, dal momento che il tuo utilizzo verrà coperto dal piano gratuito del Catalogo dati AWS Glue. Puoi eseguire l'archiviazione del primo milione di oggetti ed effettuare un milione di richieste al mese gratuitamente.

    Catalogo dati AWS Glue: ora supponiamo che il tuo utilizzo dello spazio di archiviazione rimanga lo stesso, ossia un milione di tabelle al mese, ma che le tue richieste passino a due milioni al mese. Ipotizziamo che utilizzi anche crawler per individuare nuove tabelle e che questi siano in esecuzione per 30 minuti e consumino 2 DPU.

    Il costo di archiviazione è comunque pari a 0 USD, dal momento che l'archiviazione del tuo primo milione di tabelle è gratuita. Anche il tuo primo milione di richieste è gratuito. Ti verrà addebitato il costo per il milione di richieste eccedenti il piano gratuito, pari a 1 USD. I crawler vengono fatturati a 0,44 USD per DPU/ora, quindi pagherai un costo pari a 2 DPU * 1/2 ora a 0,44 USD per DPU/ora o 0,44 USD.

    Se generi statistiche sulle tabelle Glue e la loro esecuzione richiede 10 minuti e consuma 1 DPU, ti verranno addebitati 1 DPU * 1/6 ora* 0,44 USD per DPU/ora, per un totale di 0,07 USD.

    Se compatti le tabelle Apache Iceberg ed esegui il processo per 30 minuti consumando 2 DPU, ti verranno fatturate 2 DPU * 1/2 ora * 0,44 USD/ora, per un totale di 0,44 USD.

  • Crawler
  • Sessioni interattive di DataBrew
  • Esempi di prezzo

    AWS Glue DataBrew: il prezzo di ogni sessione interattiva di 30 minuti è di 1,00 USD. Se inizi una sessione alle 9:00, esci immediatamente dalla console e torni a lavorarvi dalle 9:20 alle 9:30, verrà utilizzata 1 sessione per un totale di 1,00 USD.

    Se avvii una sessione alle 9:00 e interagisci con la console DataBrew fino alle 9:50, esci dallo spazio del progetto DataBrew e torni per effettuare l'interazione finale alle 10:15, verranno utilizzate 3 sessioni e ti verranno addebitati 1,00 USD per sessione per un totale di 3,00 USD.

  • Processi DataBrew
  • Esempi di prezzo

    AWS Glue DataBrew: se un processo DataBrew è in esecuzione per 10 minuti e consuma 5 nodi DataBrew, il prezzo sarà 0,40 USD. Dal momento che il processo è rimasto in esecuzione per 1/6 di un'ora con un consumo di 5 nodi, ti verrà fatturato l'equivalente di 5 nodi * 1/6 ora * 0,48 USD per ora/nodo per un totale di 0,40 USD.

  • Qualità dei dati
  • Qualità dei dati di AWS Glue rende i dati affidabili aiutandoti a renderli di alta qualità. Misura, monitora e gestisce automaticamente la qualità dei dati nei data lake e nelle pipeline, facilitando l'identificazione di dati mancanti, vecchi o errati.

    È possibile accedere alle funzionalità di qualità dei dati tramite il Catalogo dati e AWS Glue Studio oppure tramite le API di AWS Glue.

    Prezzi della gestione della qualità dei dati dei set di dati presenti nel Catalogo dati:

    È possibile scegliere un set di dati dal Catalogo dati e generare suggerimenti. Questa operazione crea un'attività di suggerimento per la quale verrà effettuato il provisioning dell'unità di elaborazione dati (DPU). Dopo aver ottenuto i suggerimenti, puoi modificare o aggiungere nuove regole e pianificarle. Queste attività sono chiamate “attività di qualità dei dati”, per le quali verrà effettuato il provisioning delle DPU. Sono necessarie almeno 2 DPU con una durata di fatturazione minima di 1 minuto.

    Prezzi della gestione della qualità dei dati dei set di dati elaborati su AWS Glue ETL:

    Inoltre, è possibile aggiungere controlli di qualità dei dati ai processi ETL per evitare l'ingresso di dati errati nel data lake. Queste regole relative alla qualità dei dati risiederanno nei processi ETL e comporteranno un incremento del runtime o del consumo di DPU. In alternativa, è possibile utilizzare l'esecuzione flessibile per carichi di lavoro non sensibili agli SLA.

    Prezzi del rilevamento delle anomalie in AWS Glue ETL:

    Rilevamento delle anomalie:
    Si dovranno sostenere i costi di 1 DPU per statistica in aggiunta alle DPU dei processi ETL per il tempo necessario a rilevare le anomalie. In media, il rilevamento di un'anomalia per 1 statistica richiede dai 10 ai 20 secondi. Supponiamo di aver configurato due regole (regola 1: il volume dei dati deve essere superiore a 1000 record, regola 2: il conteggio delle colonne deve essere superiore a 10) e un analizzatore (analizzatore 1: monitora la completezza di una colonna). Questa configurazione genererà tre statistiche: numero di righe, numero di colonne e percentuale di completezza di una colonna. Verranno addebitate 3 DPU aggiuntive per il tempo necessario a rilevare le anomalie con almeno 1 secondo. Vedi l'esempio 4 per maggiori dettagli.

    Riaddestramento:
    È possibile escludere le esecuzioni di processi o le statistiche anomale in modo che l'algoritmo di rilevamento delle anomalie preveda con precisione le anomalie successive. A tale scopo, AWS Glue consente di escludere o includere statistiche. Si dovranno sostenere i costi di 1 DPU per riaddestrare il modello per il tempo necessario per questa operazione. In media, il riaddestramento richiede dai 10 secondi ai 20 minuti per statistica. Vedi l'esempio 5 per maggiori dettagli.

    Archiviazione delle statistiche:
    L'archiviazione delle statistiche raccolte è gratuita. Esiste un limite di 100.000 statistiche per account, che verranno archiviate per 2 anni.

    Costi aggiuntivi:
    AWS Glue elabora i dati direttamente da Amazon Simple Storage Service (Amazon S3). Non sono previsti costi di archiviazione aggiuntivi per la lettura dei dati con AWS Glue. Saranno però addebitati i costi standard di Amazon S3 per archiviazione, richieste e trasferimento di dati. In base alla configurazione impostata, i file temporanei, i risultati della qualità dei dati e i file casuali vengono archiviati in un bucket S3 di tua scelta e fatturati secondo le tariffe standard di S3.


    Se utilizzi il Catalogo dati, ti saranno addebitate le tariffe standard del Catalogo dati. Per ulteriori dettagli, seleziona la tabella dell'archiviazione e delle richieste del Catalogo dati.

    Esempi di prezzo

    Esempio 1: ottieni suggerimenti per una tabella nel Catalogo dati

    Ad esempio, considera un'attività di suggerimento con 5 DPU che si realizza in 10 minuti. Pagherai 5 DPU * 1/6 ore * 0,44 USD, ovvero 0,37 USD.

    Esempio 2: valuta la qualità dei dati di una tabella nel Catalogo dati

    Dopo aver esaminato i suggerimenti, puoi modificarli, se necessario, e successivamente pianificare le attività di qualità dei dati allocando delle DPU. Per esempio, considera un'attività di valutazione della qualità dei dati con 5 DPU che si realizza in 20 minuti.
    Pagherai 5 DPU * 1/3 ore * 0,44 USD, ovvero 0,73 USD.

    Esempio 3: valuta la qualità dei dati in un processo ETL di AWS Glue

    Puoi anche aggiungere questi controlli di qualità dei dati ai tuoi processi ETL di AWS Glue per evitare l'ingresso di dati errati nel data lake. Per farlo, puoi aggiungere Data Quality Transform su AWS Glue Studio o utilizzare le API AWS Glue all'interno del codice che scrivi nei notebook AWS Glue Studio. Considera un processo AWS Glue eseguito dove sono configurate le regole di qualità dei dati all'interno della pipeline e che si realizza in 20 minuti (1/3 ora) con 6 DPU. Pagherai 6 DPU * 1/3 ore * 0,44 USD, ovvero 0,88 USD. In alternativa, puoi utilizzare Flex e pagherai 6 DPU x 1/3 di ora x 0,29 USD, ovvero 0,58 USD.

    Esempio 4: valuta la qualità dei dati in un processo ETL di AWS Glue con il rilevamento delle anomalie

    Consideriamo un processo di AWS Glue che legge i dati da Amazon S3, li trasforma ed esegue controlli di qualità dei dati prima di caricarli su Amazon Redshift. Supponiamo che questa pipeline contenga 10 regole e 10 analizzatori, con conseguente raccolta di 20 statistiche. Inoltre, supponiamo che l'estrazione, il processo di trasformazione, il caricamento, la raccolta di statistiche e la valutazione della qualità dei dati richiedano 20 minuti. Se il rilevamento delle anomalie non è abilitato, al cliente verranno addebitati 6 DPU x 1/3 di ora (20 minuti) x 0,44 USD, ovvero 0,88 USD (A). Se il rilevamento delle anomalie è abilitato, verrà aggiunta 1 DPU per ogni statistica e saranno necessari in media 15 secondi per rilevare le anomalie. In questo esempio, il cliente dovrà sostenere costi pari a 20 statistiche x 1 DPU x 15/3600 (0,0041 ora/statistica) x 0,44 USD (costo per DPU/ora) = 0,037 USD (B). Il costo totale del processo sarà pari a 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.

    Esempio 5 — Riaddestramento

    Supponiamo che il processo con Glue abbia rilevato un'anomalia. Decidiamo di escludere l'anomalia dal modello in modo che l'algoritmo di rilevamento delle anomalie possa prevedere con precisione le anomalie future. A tale scopo, è possibile riaddestrare il modello escludendo questa statistica anomala. Si dovranno sostenere i costi di 1 DPU per statistica per il tempo necessario per riaddestrare il modello. In media, questa operazione può richiedere 15 secondi. Supponendo di escludere 1 punto dati, in questo esempio i costi saranno pari a 1 statistica x 1 DPU x 15/3600 (0,0041 ora/statistica) x 0,44 USD = 0,00185 USD.

Nota: i prezzi possono variare in base alla regione.

Per ulteriori informazioni sulla disponibilità di AWS Glue, consulta la tabella delle regioni a livello globale.