AWS Glue Data Quality

Hochwertige Daten über Ihre Data Lakes und Pipelines liefern

Warum AWS Glue Data Quality?

Data Lakes können ohne angemessene Aufsicht zu Datensümpfen werden. Die Einrichtung von Datenqualitätsprüfungen ist zeitaufwändig, mühsam und fehleranfällig. Sie müssen Datenqualitätsregeln manuell erstellen und Code schreiben, um Datenpipelines zu überwachen und Datenverbraucher zu benachrichtigen, wenn sich die Datenqualität verschlechtert. AWS Glue Data Quality reduziert diesen manuellen Qualitätsaufwand von Tagen auf Stunden. Es berechnet automatisch Statistiken, empfiehlt Qualitätsregeln, überwacht und warnt Sie, wenn Probleme erkannt werden. Für versteckte und schwer zu findende Probleme verwendet Glue-Data-Quality-ML-Algorithmen. Die Kombination aus regelbasiertem und ML-Ansatz sowie der serverlosen, skalierbaren und offenen Lösung ermöglicht es Ihnen, qualitativ hochwertige Daten bereitzustellen, um fundierte Geschäftsentscheidungen zu treffen. 

Funktionen von AWS Glue Data Quality

AWS Glue ist Serverles, sodass Sie skalieren können, ohne die Infrastruktur verwalten zu müssen. Es lässt sich für jede Datengröße skalieren und bietet eine nutzungsbasierte Abrechnung, um die Agilität zu erhöhen und die Kosten zu senken. AWS Glue Data Quality verwendet Deequ, ein von Amazon entwickeltes Open-Source-Framework zur Verwaltung von Datensätzen im Petabyte-Bereich. Da es mit Open Source erstellt wurde, bietet AWS Glue Data Quality Flexibilität und Portabilität ohne Bindung.
AWS Glue Data Quality berechnet automatisch die Statistiken für Ihre Datensätze. Es verwendet diese Statistiken, um eine Reihe von Qualitätsregeln zu empfehlen, die auf Aktualität, Genauigkeit, Integrität und sogar schwer zu findende Probleme prüfen. Sie können bei Bedarf empfohlene Regeln anpassen, Regeln verwerfen oder neue Regeln hinzufügen. Wenn AWS Glue Data Quality Qualitätsprobleme feststellt, werden Sie ebenfalls gewarnt, so dass Sie darauf reagieren können.
Die Datenqualität von AWS Glue ist intelligent. Es lernt Muster in Datenstatistiken, die im Laufe der Zeit mithilfe von ML-Algorithmen gesammelt wurden. Es erkennt Anomalien, ungewöhnliche Datenmuster und warnt Benutzer. Außerdem werden automatisch Regeln zur Überwachung dieser spezifischen Muster erstellt, sodass Sie nach und nach Datenqualitätsregeln erstellen können.
Ihre Daten ruhen in verschiedenen Repositorys und werden von einem Repository zum anderen verschoben. Die Überwachung der Datenqualität ist sowohl nach dem Empfang als auch während der Übertragung wichtig. Die Regeln für AWS Glue Data Quality können sowohl auf in Ihren Datensätzen ruhenden Daten und Data Lakes als auch auf ganze Datenpipelines angewendet werden, in denen Daten in Bewegung sind. Sie können Regeln auf mehrere Datensätze anwenden. Für Datenpipelines, die auf AWS Glue Studio basieren, können Sie eine Transformation anwenden, um die Qualität der gesamten Pipeline zu einem Bruchteil der Kosten zu bewerten, da sich die Daten bereits im Speicher befinden. Sie können auch Regeln definieren, um die Pipeline anzuhalten, wenn sich die Qualität verschlechtert, wodurch verhindert wird, dass schlechte Daten in Ihren Data Lakes landen.
Verwenden Sie über 25 sofort einsatzbereite AWS-Glue-Data-Quality-Regeln, um Ihre Daten zu validieren und bestimmte Daten zu identifizieren, die Probleme verursachen. Implementieren Sie Datenqualitätsprüfungen, bei denen verschiedene Datensätze in unterschiedlichen Datenquellen innerhalb von Minuten mit sofort einsatzbereiten Regeln verglichen werden. Mit Glue ETL können Sie diese Probleme problemlos beheben und qualitativ hochwertige Daten in Ihre Datenrepositorien aufnehmen.