Amazon-SageMaker-Datenverarbeitung
Daten für Analytik und KI in jeder Größenordnung analysieren, vorbereiten und integrieren
Warum SageMaker-Datenverarbeitung?
Bereiten Sie Ihre Daten vor, integrieren und orchestrieren Sie sie mit den Datenverarbeitungsfunktionen von Amazon Athena, Amazon EMR, AWS Glue und Amazon Managed Workflows für Apache Airflow (MWAA). Verarbeiten und integrieren Sie Ihre Daten, wo auch immer sie sich befinden, mit schneller und einfacher Konnektivität zu Hunderten von Datenquellen.
Nutzen Sie Open-Source-Frameworks für die Datenverarbeitung wie Apache Spark, Trino und Apache Flink. Analysieren Sie Daten in großem Maßstab mit Trino, ohne die Infrastruktur zu verwalten, und erstellen Sie nahtlos Echtzeitanalytik mit Apache Flink und Apache Spark.
Vertrauen Sie darauf, dass Ihre Daten korrekt und sicher sind, indem Sie die Datenqualität, die Identifizierung sensibler Daten, die Nachverfolgung der Lineage und die Durchsetzung differenzierter Zugriffskontrollen durch die native Integration in Amazon SageMaker Lakehouse automatisieren.
Vorteile
AWS-Services
Vereinfachte Datenintegration
AWS Glue bietet eine Serverless-Datenintegration und vereinfacht so die Erkundung, Vorbereitung und Integration von Daten aus mehreren Quellen. Stellen Sie eine Verbindung zu verschiedenen Datenquellen her, verwalten Sie Ihre Daten in einem zentralen Datenkatalog und erstellen, betreiben und überwachen Sie visuell ETL-Pipelines, um Daten in Ihr Lakehouse zu laden. AWS Glue skaliert automatisch bei Bedarf, sodass Sie sich darauf konzentrieren können, Einblicke aus Ihren Daten zu gewinnen, ohne die Infrastruktur verwalten zu müssen.
Apache Spark, Apache Hive, Trino und andere Workloads ausführen und skalieren
Amazon EMR ermöglicht eine einfachere und kostengünstigere Ausführung von Datenverarbeitungs-Workloads wie Apache Spark, Apache Airflow, Apache Flink, Trino und mehr auszuführen. Erstellen und betreiben Sie Datenverarbeitungs-Pipelines und skalieren Sie automatisch schneller als bei On-Premises-Lösungen.
Kosten nachverfolgen
Athena bietet eine vereinfachte und flexible Methode zur Analyse Ihrer Daten in jeder Größenordnung. Athena ist ein interaktiver Abfrageservice, der die Datenanalyse in Amazon S3 mithilfe von Standard-SQL vereinfacht. Athena ist Serverless, sodass keine Infrastruktur eingerichtet oder verwaltet werden muss. Sie können wählen, ob Sie auf der Grundlage der von Ihnen ausgeführten Abfragen oder der für Ihre Abfragen benötigten Rechenressourcen bezahlen möchten. Sie können Athena nutzen, um Protokolle zu verarbeiten, Datenanalysen durchzuführen und interaktive Abfragen auszuführen. Athena skaliert sich automatisch. Mehrere Abfragen werden parallel ausgeführt, sodass Sie die Ergebnisse selbst bei großen Datensätzen und komplexen Abfragen schnell zurück erhalten.
Sicherheitsorientierte und hochverfügbare verwaltete Workflow-Orchestrierung für Apache Airflow
Amazon MWAA ist ein verwalteter Service für Apache Airflow, mit dem Sie Ihre aktuelle, vertraute Apache-Airflow-Plattform für die Orchestrierung Ihrer Arbeitsabläufe nutzen können. Sie profitieren von einer verbesserten Skalierbarkeit, Verfügbarkeit und Sicherheit, ohne dass Sie sich um die Verwaltung der zugrunde liegenden Infrastruktur kümmern müssen. Amazon MWAA orchestriert Ihre Workflows mithilfe gerichteter azyklischer Graphen (DAGs), die in Python geschrieben wurden. Sie stellen Amazon MWAA einen S3-Bucket zur Verfügung, in dem sich Ihre DAGs, Plugins und Python-Anforderungen befinden. Setzen Sie Apache Airflow in großem Umfang ein, ohne die zugrunde liegende Infrastruktur verwalten zu müssen.