Warum Glue?

Bei AWS Glue zahlen Sie einen sekundengenau abgerechneten Stundensatz für Crawler (Datenermittlung) und Extract, Transform, Load (ETL)-Aufträge (Verarbeitung und Laden von Daten). Für den AWS-Glue-Datenkatalog zahlen Sie eine vereinfachte monatliche Gebühr für die Speicherung und den Zugriff auf die Metadaten. Die erste Million Objekte, die gespeichert werden, sind kostenlos, und die erste Million Zugriffe ebenfalls. Wenn Sie einen Entwicklungsendpunkt für die interaktive Entwicklung Ihres ETL-Codes bereitstellen, zahlen Sie einen Stundensatz, der pro Sekunde abgerechnet wird. Bei AWS Glue DataBrew werden die interaktiven Sitzungen pro Sitzung und DataBrew-Aufträge pro Minute abgerechnet. Die Nutzung der AWS-Glue-Schema-Registrierung wird ohne zusätzliche Gebühren angeboten.

Hinweis: Die Preise können je nach AWS-Region variieren.

  • ETL-Aufträge und interaktive Sitzungen
  • Preisbeispiele

    ETL-Auftrag: Stellen Sie sich einen Auftrag von AWS Glue Apache Spark vor, der 15 Minuten lang ausgeführt wird und 6 DPU verwendet. Der Preis für 1 DPU-Stunde beträgt 0,44 USD. Da Ihr Auftrag 1/4 Stunde lief und 6 DPUs verbrauchte, stellt Ihnen AWS 6 DPU * 1/4 Stunde * 0,44 USD oder 0,66 USD in Rechnung.

    AWS Glue Studio Job Notebooks und interaktive Sitzungen: Angenommen, Sie verwenden ein Notebook in AWS Glue Studio, um Ihren ETL-Code interaktiv zu entwickeln. Eine interaktive Sitzung hat standardmäßig 5 DPU. Wenn Sie die Sitzung 24 Minuten oder 2/5 einer Stunde laufen lassen, werden Ihnen 5 DPUs * 2/5 Stunden zu 0,44 USD pro DPU-Stunde oder 0,88 USD in Rechnung gestellt.

    ML Transforms: Ähnlich wie bei AWS-Glue-Aufgabenausführungen variieren die Kosten für die Ausführung von ML Transforms mit Ihren Daten, darunter FindMatches, abhängig von der Größe und dem Inhalt der Daten sowie von der Anzahl und Arten der Knoten, die Sie nutzen. Im folgenden Beispiel haben wir FindMatches verwendet, um Informationen zu Sehenswürdigkeiten mehrerer Datenquellen zu integrieren. Bei einer Datensatzgröße von ~11 000.000 Zeilen (1,6 GB), einer Größe der Labeldaten (Beispiele für echte Übereinstimmungen oder echte Nicht-Übereinstimmungen) von ~8 000 Zeilen (641 KB), die auf 16 Instances des Typs G.2x ausgeführt werden, ergibt sich eine Laufzeit der Labelset-Generierung von 34 Minuten zu Kosten von 8,23 USD, eine Laufzeit der Metrikschätzung von 11 Minuten zu Kosten von 2,66 USD und eine Laufzeit der FindingMatches-Aufgabe von 32 Minuten zu Kosten von 7,75 USD.

  • Datenkatalog
  • Preisbeispiele

    Kostenloses Kontingent von AWS Glue Data Catalog: Jetzt möchten Sie eine Million Tabellen in Ihrem Datenkatalog in einem bestimmten Monat speichern und 1 Million Anfragen stellen, um auf diese Tabellen zuzugreifen. Sie zahlen dafür 0 USD, weil Ihre Nutzung unter dem kostenlosen Kontingent des AWS Glue Data Catalog abgedeckt wird. Das Speichern der ersten Million Objekte speichern und das Stellen der ersten Million Anfragen pro Monat sind kostenlos.

    AWS Glue Data Catalog: Gehen wir jetzt einmal davon aus, dass sich Ihre Speicherauslastung pro Monat nicht verändert, also bei 1 Million Tabellen bleibt, aber Ihre Anfragen sich auf 2 Millionen pro Monat verdoppeln. Nehmen wir außerdem an, dass Sie zusätzlich Crawler einsetzen, um neue Tabellen zu finden, und dass diese 30 Minuten lang ausgeführt werden und dabei 2 DPUs verbrauchen.

    Ihre Speicherkosten belaufen sich dann immer noch auf 0 USD, da Sie Ihre erste Million Tabellen kostenlos speichern können. Ihre erste Million Anfragen sind ebenfalls kostenlos. Sie erhalten nur eine Rechnung über die erste Million Anfragen, die das kostenlose Kontingent überschreiten, was 1 USD entspricht. Crawler werden mit 0,44 USD pro DPU-Stunde berechnet. Sie zahlen also für 2 DPUs * 1/2 Stunde bei 0,44 USD pro DPU-Stunde oder 0,44 USD.

    Wenn Sie Statistiken für Glue-Tabellen erstellen und der Statistiklauf 10 Minuten dauert und 1 DPUs verbraucht, werden Ihnen 1 DPUs * 1/6 Stunde * 0,44 USD/DPU-Stunde in Rechnung gestellt, was 0,07 USD entspricht.

    Wenn Sie Apache-Iceberg-Tabellen komprimieren und die Komprimierung 30 Minuten lang läuft und 2 DPUs verbraucht, werden Ihnen 2 DPUs * 1/2 Stunde * 0,44 USD/DPU-Stunde in Rechnung gestellt, was 0,44 USD entspricht.

  • Crawler
  • Interaktive DataBrew-Sitzungen
  • Preisbeispiele

    AWS Glue DataBrew: Der Preis für jede 30-minütige interaktive Sitzung beträgt 1,00 USD. Wenn Sie eine Sitzung um 9:00 Uhr starten, dann sofort die Konsole verlassen und zwischen 9:20 Uhr-9:30 Uhr zurückkehren, wird dies 1 Sitzung zu insgesamt 1,00 USD verbrauchen.

    Wenn Sie eine Sitzung um 09:00 Uhr starten und mit der DataBrew-Konsole bis um 09:50 Uhr interagieren, dann den DataBrew-Projektraum verlassen und um 10:15 für eine letzte Interaktion zurückkehren, wird dies 3 Sitzungen verbrauchen und es werden Ihnen 1,00 USD pro Sitzung verrechnet, also insgesamt 3,00 USD.

  • DataBrew-Aufträge
  • Preisbeispiele

    AWS Glue DataBrew: Wenn ein DataBrew-Auftrag 10 Minuten läuft und 5 DataBrew-Knoten verbraucht, beträgt der Preis 0,40 USD. Da Ihr Auftrag für 1/6 Stunde lief und 5 Knoten verbraucht hat, werden Ihnen 5 Knoten * 1/6 Stunde zu 0,48 USD pro Knoten-Stunde in Rechnung gestellt, insgesamt 0,40 USD.

  • Datenqualität
  • AWS Glue Data Quality stärkt das Vertrauen in Ihre Daten, indem es Ihnen hilft, eine hohe Datenqualität zu erreichen. Es misst, überwacht und verwaltet automatisch die Datenqualität in Ihren Data Lakes und Pipelines und macht es einfacher, fehlende, veraltete oder schlechte Daten zu identifizieren.

    Sie können auf die Datenqualitätsfunktionen aus Datenkatalog und AWS Glue Studio und über AWS Glue APIs zugreifen.

    Preise für die Verwaltung der Datenqualität von Datensätzen, die im Datenkatalog katalogisiert sind:

    Sie können einen Datensatz aus dem Datenkatalog auswählen und Empfehlungen generieren. Mit dieser Aktion erstellen Sie eine Empfehlungsaufgabe, für die Sie Datenverarbeitungseinheiten (DPU) bereitstellen werden. Nachdem Sie die Empfehlungen erhalten haben, können Sie die Regeln ändern oder neue hinzufügen und diese planen. Diese Aufgaben werden als Datenqualitätsaufgaben bezeichnet, für die Sie DPU bereitstellen werden. Sie benötigen mindestens 2 DPU mit einer Mindestabrechnungsdauer von 1 Minute.

    Preise für die Verwaltung der Datenqualität von Datensätzen, die auf AWS Glue ETL verarbeitet werden:

    Sie können auch Datenqualitätsprüfungen zu Ihren ETL-Aufträgen hinzufügen, um zu verhindern, dass schlechte Daten in Data Lakes gelangen. Diese Datenqualitätsregeln befinden sich in Ihren ETL-Aufträgen, was zu einer längeren Laufzeit oder einem höheren DPU-Verbrauch führt. Alternativ können Sie die flexible Ausführung für nicht SLA-sensitive Workloads verwenden.

    Preise für die Erkennung von Anomalien in AWS Glue ETL:

    Anomalieerkennung:
    Für die Zeit, die zur Erkennung von Anomalien benötigt wird, fällt zusätzlich zu Ihrem ETL-Auftrags-DPU 1 DPU pro Statistik an. Im Durchschnitt dauert es zwischen 10 und 20 Sekunden, um eine Anomalie für eine Statistik zu erkennen. Nehmen wir an, Sie haben zwei Regeln (Regel1: Datenvolumen muss größer als 1000 Datensätze sein, Regel2: Spaltenanzahl muss größer als 10 sein) und einen Analyzer (Analyzer 1: Vollständigkeit einer Spalte überwachen) konfiguriert. Diese Konfiguration generiert drei Statistiken: Zeilenzahl, Spaltenzahl und Vollständigkeitsprozentsatz einer Spalte. Für die Zeit, die zur Erkennung von Anomalien benötigt wird, werden Ihnen 3 zusätzliche DPU in Rechnung gestellt, mit einer Mindestdauer von 1 Sekunde. Weitere Informationen finden Sie in Beispiel 4.

    Umschulung:
    Möglicherweise möchten Sie anomale Auftragsausführungen oder Statistiken ausschließen, damit der Anomalieerkennungsalgorithmus nachfolgende Anomalien genau vorhersagen kann. Zu diesem Zweck können Sie mit AWS Glue Statistiken ausschließen oder einschließen. Für die Zeit, die für die Umschulung des Modells benötigt wird, fällt 1 DPU an. Im Durchschnitt dauert die Umschulung pro Statistik 10 Sekunden bis 20 Minuten. Weitere Informationen finden Sie in Beispiel 5.

    Statistikspeicher:
    Für die Speicherung der gesammelten Statistiken fallen keine Gebühren an. Es gibt ein Limit von 100 000 Statistiken pro Konto und sie werden 2 Jahre lang gespeichert.

    Zusätzliche Gebühren:
    AWS Glue verarbeitet Daten direkt aus Amazon Simple Storage Service (Amazon S3). Für das Lesen Ihrer Daten mit AWS Glue fallen keine zusätzlichen Speichergebühren an. Ihnen werden die Standardtarife von Amazon S3 für Speicher, Anfragen und Datentransfer berechnet. Je nach Ihrer Konfiguration werden temporäre Dateien, Datenqualitätsergebnisse und Shuffle-Dateien in einem S3-Bucket Ihrer Wahl gespeichert und ebenfalls zu den Standard-S3-Tarifen abgerechnet.


    Wenn Sie den Datenkatalog verwenden, werden die Standardraten des Datenkatalogs berechnet. Details finden Sie auf der Registerkarte Datenkatalogspeicher und -anfragen.

    Preisbeispiele

    Beispiel 1 – Empfehlungen für eine Tabelle im Datenkatalog abrufen

    Nehmen wir zum Beispiel eine Empfehlungsaufgabe mit 5 DPUs, die in 10 Minuten abgeschlossen ist. Sie zahlen 5 DPU * 1/6 Stunde * 0,44 USD, was 0,37 USD entspricht.

    Beispiel 2 – Bewerten der Datenqualität einer Tabelle im Datenkatalog

    Nachdem Sie die Empfehlungen geprüft haben, können Sie sie bei Bedarf bearbeiten und dann die Datenqualitätsaufgabe planen, indem Sie DPU bereitstellen. Nehmen wir zum Beispiel eine Aufgabe zur Bewertung der Datenqualität mit 5 DPU, die in 20 Minuten abgeschlossen ist.
    Sie zahlen 5 DPU * 1/3 Stunde * 0,44 USD, was 0,73 USD entspricht.

    Beispiel 3 – Bewerten der Datenqualität in einem AWS Glue ETL-Auftrag

    Sie können diese Datenqualitätsprüfungen auch zu Ihren ETL-Aufträgen in AWS Glue hinzufügen, um zu verhindern, dass schlechte Daten in Ihre Data Lakes gelangen. Sie können dies tun, indem Sie Data Quality Transform in AWS Glue Studio hinzufügen oder AWS Glue-APIs innerhalb des Codes verwenden, den Sie in AWS Glue Studio-Notebooks verfassen. Nehmen wir einen AWS Glue-Auftrag, der dort ausgeführt wird, wo Datenqualitätsregeln innerhalb der Pipeline konfiguriert sind, und der 20 Minuten (1/3 Stunde) mit 6 DPU ausgeführt wird. Ihnen werden 6 DPU * 1/3 Stunde * 0,44 USD berechnet, was 0,88 USD entspricht. Alternativ können Sie auch Flex nutzen, wofür Ihnen 6 DPU * 1/3 Stunde * 0,29 USD, also 0,58 USD, berechnet werden.

    Beispiel 4 – Bewerten der Datenqualität in einem AWS Glue ETL-Auftrag mit Anomalie-Erkennung

    Stellen Sie sich einen AWS Glue-Auftrag vor, der Daten aus Amazon S3 liest, Daten transformiert und Datenqualitätsprüfungen durchführt, bevor er in Amazon Redshift geladen wird. Nehmen Sie an, dass diese Pipeline 10 Regeln und 10 Analysatoren enthält, was zu 20 gesammelten Statistiken führt. Nehmen Sie außerdem an, dass die Extraktion, der Transformationsprozess, das Laden, das Sammeln von Statistiken und die Bewertung der Datenqualität 20 Minuten dauern. Ohne aktivierte Anomalieerkennung werden dem Kunden 6 DPU * 1/3 Stunde (20 Minuten) * 0,44 USD berechnet, was 0,88 USD (A) entspricht. Wenn die Anomalieerkennung aktiviert ist, fügen wir für jede Statistik 1 DPU hinzu, und es dauert durchschnittlich 15 Sekunden, um Anomalien zu erkennen. In diesem Beispiel fallen für den Kunden 20 Statistiken * 1 DPU * 15/3600 (0,0041 Stunde/Statistik) * 0,44 USD (Kosten pro DPU/Stunde) = 0,037 USD (B) an. Ihre Gesamtkosten für den Auftrag betragen 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.

    Beispiel 5 – Umschulung

    Stellen Sie sich vor, dass Ihr Glue-Auftrag eine Anomalie erkannt hat. Sie entscheiden sich, die Anomalie aus dem Modell auszuschließen, damit der Anomalieerkennungsalgorithmus zukünftige Anomalien genau vorhersagen kann. Zu diesem Zweck können Sie das Modell umschulen, indem Sie diese anomale Statistik ausschließen. Für die Zeit, die zum Umschulen des Modells benötigt wird, fällt 1 DPU pro Statistik an. Im Durchschnitt kann dies 15 Sekunden dauern. In diesem Beispiel fallen unter der Annahme, dass Sie 1 Datenpunkt ausschließen, 1 Statistik * 1 DPU * 15/3600 (0,0041 Stunden/Statistik) * 0,44 USD = 0,00185 USD an.

Hinweis: Die Preise können je nach Region variieren.

Sehen Sie sich die globale Regionstabelle an, um mehr über die Verfügbarkeit von AWS Glue zu erfahren.