Häufig gestellte Fragen zu Amazon SageMaker Lakehouse

Allgemeines

Amazon SageMaker Lakehouse vereinheitlicht all Ihre Daten aus Data Lakes von Amazon Simple Storage Service (Amazon S3) und Amazon Redshift Data Warehouses und hilft Ihnen so, leistungsstarke Analytik- und KI/ML-Anwendungen auf einer einzigen Datenkopie zu erstellen. SageMaker Lakehouse bietet Ihnen die Flexibilität, mit allen Apache-Iceberg-kompatiblen Tools und Engines auf Ihre Daten zuzugreifen und diese abzufragen. Schützen Sie Ihre Daten im Lakehouse, indem Sie Berechtigungen definieren, die in allen Tools und Engines für Analytik und Machine Learning (ML) durchgesetzt werden. Bringen Sie Daten aus Betriebsdatenbanken und Anwendungen durch Null-ETL-Integrationen nahezu in Echtzeit in Ihr Lakehouse. Darüber hinaus können Sie mit Verbundabfragefunktionen aus Datenquellen von Drittanbietern direkt auf Daten zugreifen und diese abfragen.

SageMaker Lakehouse:

a) Reduziert Datensilos durch einheitlichen Zugriff auf Ihre Daten in Amazon S3 Data Lakes und Amazon Redshift Data Warehouses. Daten aus Betriebsdatenbanken und Anwendungen können nahezu in Echtzeit in Ihr Lakehouse für Analytik und ML mit Pipelines von Extract, Transform, Load (ETL) ohne Code oder mit geringem Code aufgenommen werden. Sie können auch Hunderte von Konnektoren und 13 Verbundabfragefunktionen verwenden, um auf Daten von AWS und Quellen außerhalb von AWS zuzugreifen.

b) Bietet Ihnen die Flexibilität, direkt auf all Ihre Daten zuzugreifen und diese abzufragen, und zwar über eine Vielzahl von AWS-Services sowie Open-Source-Tools und Engines von Drittanbietern, die mit Apache Iceberg kompatibel sind. Sie können Analysetools und Engines Ihrer Wahl wie SQL, Apache Spark, Business Intelligence (BI) und KI/ML-Tools verwenden und mit einer einzigen Kopie der in Amazon S3 oder Amazon Redshift gespeicherten Daten zusammenarbeiten.

c) Verbessert die Unternehmenssicherheit mit einem integrierten Zugriffskontrollmechanismus, der Ihre Daten schützt, wenn Sie über integrierte AWS-Services wie Amazon Redshift, Amazon Athena oder Amazon EMR oder mit Apache Iceberg kompatiblen Engines von Drittanbietern darauf zugreifen.

Auf SageMaker Lakehouse kann direkt über Amazon SageMaker Unified Studio (Vorversion) zugegriffen werden. Daten aus verschiedenen Quellen sind in logischen Containern organisiert, die in SageMaker Lakehouse als Kataloge bezeichnet werden. Jeder Katalog stellt Daten entweder aus vorhandenen Datenquellen wie Amazon Redshift Data Warehouses, Data Lakes oder Datenbanken dar. Neue Kataloge können direkt im Lakehouse erstellt werden, um Daten in Amazon S3 oder Amazon Redshift Managed Storage (RMS) zu speichern. Auf Daten in SageMaker Lakehouse kann über eine mit Apache Iceberg kompatible Engine wie Apache Spark, Athena oder Amazon EMR zugegriffen werden. Darüber hinaus können diese Kataloge als Datenbanken in Amazon Redshift Data Warehouses erkannt werden, sodass Sie Ihre SQL-Tools verwenden und Ihre Lakehouse-Daten analysieren können.

Funktionen

SageMaker Lakehouse vereinheitlicht die Zugriffskontrolle auf Ihre Daten mit zwei Funktionen: 1) Mit SageMaker Lakehouse können Sie differenzierte Berechtigungen definieren. Diese Berechtigungen werden von Abfrage-Engines wie Amazon EMR, Athena und Amazon Redshift durchgesetzt. 2) SageMaker Lakehouse ermöglicht Ihnen den direkten Zugriff auf Ihre Daten, sodass Sie keine Datenkopien erstellen müssen. Sie können eine einzige Kopie der Daten und einen einzigen Satz von Zugriffskontrollrichtlinien verwalten, um von einer einheitlichen, differenzierten Zugriffskontrolle in SageMaker Lakehouse zu profitieren.

SageMaker Lakehouse basiert auf mehreren technischen Katalogen im AWS-Glue-Datenkatalog, Lake Formation und Amazon Redshift, um einen einheitlichen Datenzugriff über Data Lakes und Data Warehouses hinweg zu ermöglichen. SageMaker Lakehouse verwendet den AWS-Glue-Datenkatalog und Lake Formation, um Tabellendefinitionen und Berechtigungen zu speichern. Differenzierte Berechtigungen für Lake Formation sind für Tabellen verfügbar, die in SageMaker Lakehouse definiert sind. Sie können Ihre Tabellendefinitionen im AWS-Glue-Datenkatalog verwalten und differenzierte Berechtigungen wie Berechtigungen auf Tabellen-, Spalten- und Zellenebene definieren, um Ihre Daten zu schützen. Darüber hinaus können Sie mithilfe der kontoübergreifenden Datenaustauschfunktionen die gemeinsame Nutzung von Daten ohne Kopien aktivieren, um Daten für eine sichere Zusammenarbeit verfügbar zu machen.

Ja. Für den Zugriff auf SageMaker Lakehouse ist die Open-Source-Clientbibliothek von Apache Iceberg erforderlich. Kunden, die Drittanbieter- oder selbstverwaltete Open-Source-Engines wie Apache Spark oder Trino verwenden, müssen die Apache-Iceberg-Clientbibliothek in ihre Abfrage-Engines aufnehmen, um auf SageMaker Lakehouse zugreifen zu können.

Ja, mithilfe einer Apache-Iceberg-Client-Bibliothek können Sie Daten von Apache-Spark-Engines auf AWS-Services wie Amazon EMR, AWS Glue, Athena und Amazon SageMaker oder dem Drittanbieter Apache Spark lesen und in Ihr vorhandenes Amazon Redshift schreiben. Sie müssen jedoch über die entsprechenden Schreibberechtigungen für die Tabellen verfügen, um Daten in sie zu schreiben.

Ja, Sie können Ihre Data-Lake-Tabellen auf Amazon S3 mit den Tabellen in Ihrem Amazon Redshift Data Warehouse über mehrere Datenbanken hinweg verbinden, indem Sie eine Engine Ihrer Wahl wie Apache Spark verwenden.

Migration

Nein, Sie müssen Ihre Daten nicht migrieren, um SageMaker Lakehouse verwenden zu können. Mit SageMaker Lakehouse können Sie mit dem offenen Standard von Apache Iceberg direkt auf Ihre Daten zugreifen und diese abfragen. Sie können direkt auf Ihre Daten in Amazon S3 Data Lakes und Amazon Redshift Data Warehouses zugreifen. Daten aus Betriebsdatenbanken und Anwendungen können über verfügbare Null-ETL-Integrationen nahezu in Echtzeit in das Lakehouse aufgenommen werden, ohne dass die Infrastruktur oder komplexe Pipelines gewartet werden müssen. Sie können auch Funktionen für Verbundabfragen verwenden, um auf Ihre lokalen Daten zuzugreifen. Darüber hinaus können Sie Hunderte von AWS-Glue-Konnektoren verwenden, um sie in Ihre vorhandenen Datenquellen zu integrieren.

Wenn Sie bereits Amazon-Redshift-Benutzer sind, können Sie Ihr Amazon Redshift Data Warehouse in wenigen einfachen Schritten und ohne Migration Ihrer Daten bei SageMaker Lakehouse registrieren. Folgen Sie den Schritten im Entwicklerhandbuch.

Wenn Sie Ihren Amazon S3 Data Lake mithilfe des AWS-Glue-Datenkatalogs konfiguriert haben, müssen Sie keine Änderungen vornehmen.

Null-ETL-Integrationen

SageMaker Lakehouse unterstützt Null-ETL-Integrationen mit Amazon DynamoDB, Amazon Aurora und Amazon RDS für MySQL sowie acht Anwendungen: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook Ads, Instagram Ads, Zendesk und SAP.

Sie können Ihre Null-ETL-Integrationen über die AWS-Glue-Konsole in der Amazon-SageMaker-Datenverarbeitung mit AWS Glue konfigurieren und überwachen. Sobald die Daten aufgenommen wurden, können Sie auf die Daten von Abfrage-Engines, die mit Apache Iceberg kompatibel sind, zugreifen und diese abfragen. Weitere Informationen finden Sie bei den Null-ETL-Integrationen.

Weitere Informationen zur Preisgestaltung finden Sie auf den Preisseiten von SageMaker Lakehouse und AWS Glue.

Preise

Weitere Informationen finden Sie unter SageMaker-Lakehouse-Preise.

Verfügbarkeit

SageMaker Lakehouse ist in den Regionen USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Asien-Pazifik (Hongkong), Asien-Pazifik (Seoul), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Tokio), Kanada (Zentral), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Stockholm) und Südamerika (Sao Paulo) verfügbar.

Ja. SageMaker Lakehouse speichert Metadaten im AWS-Glue-Datenkatalog und bietet dasselbe SLA wie Amazon Glue an.

Erste Schritte

Zu Beginn können Sie sich mit Ihren Unternehmensanmeldeinformationen (z. B. Okta) in SageMaker Unified Studio bei Ihrer SageMaker-Domain anmelden. In wenigen kurzen Schritten in SageMaker Unified Studio können Administratoren Projekte erstellen, indem sie ein bestimmtes Projektprofil auswählen. Sie können dann ein Projekt auswählen, um mit dem SageMaker Lakehouse zu arbeiten. Sobald ein Projekt ausgewählt ist, erhalten Sie eine einheitliche Ansicht von Daten, Abfrage-Engines und Entwicklertools an einem Ort. Benutzer wie Dateningenieure und Datenanalysten können die Daten dann mit einem Tool ihrer Wahl abfragen. Wenn ein Dateningenieur beispielsweise ein Notebook verwendet und den Spark-Befehl ausgibt, um Tabellen aufzuführen, werden alle Data-Warehouse- und Data-Lake-Tabellen ermittelt, auf die er Zugriff hat. Anschließend können sie Befehle zum Lesen und Schreiben von Daten in die Tabellen ausführen, die physisch entweder in Amazon S3 Data Lakes oder Amazon Redshift Data Warehouses gespeichert sind. Ebenso erhält ein Datenanalyst, wenn er Amazon Redshift-SQL-Befehle in einem SQL-Editor ausführt, dieselbe einheitliche Ansicht der Daten und kann Daten in diese Tabellen lesen und schreiben. Mit Ihren bevorzugten Tools (SQL-Editor oder Notebook) können Sie neue Tabellen in Amazon S3 oder Amazon Redshift erstellen. Fragen Sie materialisierte Ansichten von Amazon Redshift ab, um die Leistung Ihrer Data-Lake-Tabellen zu beschleunigen. Neben dem SageMaker Unified Studio ist SageMaker Lakehouse auch über die AWS-Managementkonsole, die AWS-Glue-APIs, die AWS Command Line Interface (AWS CLI) oder die AWS SDKs zugänglich. Weitere Informationen finden Sie auf der Dokumentationsseite.