Amazon SageMaker Feature Store

機械学習の特徴量のフルマネージドサービス

Amazon SageMaker Feature Store の使用を開始する

仕組み

SageMaker 特徴量ストアのメリット

機能の再利用を促進する

トレーニングおよび推論用の機械学習モデル特徴量を保存、共有、管理し、機械学習アプリケーション間での特徴量の再利用を促進する

さまざまなデータソースのサポート

アプリケーションログ、サービスログ、クリックストリーム、センサー、AWS やサードパーティーのデータソースからの表形式データなど、ストリーミングやバッチを含むあらゆるデータソースから特徴量を取り込む

MLOps プラクティスの改善

データを機械学習の特微量に変換し、MLOps の実践をサポートする特微量パイプラインを構築し、モデルデプロイまでの時間を短縮します

特徴量の管理

特徴量の処理と取り込み

アプリケーションやサービスのログ、クリックストリーム、センサーなどのさまざまなソースからのデータ、および Amazon S3、Amazon Redshift、AWS Lake Formation、Snowflake、Databricks Delta Lake からの表形式データを SageMaker Feature Store に取り込むことができます。特徴量の処理を使用すると、バッチデータソースと特徴量変換関数 (製品ビュー数やタイムウィンドウ集計など) を指定でき、SageMaker Feature Store は取り込み時のデータを機械学習の特微量に変換します。Amazon SageMaker Data Wrangler を使用すると、SageMaker Feature Store に直接特徴量を公開できます。Apache Spark コネクタを使用すると、1 行のコードで大量のデータを一括取り込みできます。

特徴量の保存、カタログ、検索、再利用

SageMaker Feature Store は特徴量グループをタグ付けし、それらのインデックスを作成して、Amazon SageMaker Studio のビジュアルインターフェイスを通じて簡単に見つけることができるようにします。特徴量カタログを閲覧することで、チームは自信を持って再利用できる既存の特徴量を発見し、パイプラインの重複を回避することができます。SageMaker Feature Store は、デフォルトで AWS Glue Data Catalog を使用しますが、必要に応じて別のカタログを使用することも可能です。また、Amazon Athena や他の任意のクエリツールで使い慣れた SQL を使用して特徴量をクエリすることも可能です。

特徴量の一貫性

SageMaker Feature Store は、トレーニング用のオフラインストレージとリアルタイム推論用のオンラインストレージをサポートしています。トレーニングと推論は非常に異なるユースケースであるため、ストレージ要件はそれぞれ異なります。トレーニングにおいて、モデルは完全なデータセットを使用し、コンプリートするのに何時間もかかる一方で、推論はミリ秒単位で行う必要があり、通常はデータのサブセットを使用します。SageMaker Feature Store を併用することで、オフラインとオンラインのデータセットが同期された状態に保たれます。両者が乖離するとモデルの精度に悪影響を及ぼす可能性があるため、これは非常に重要なことです。

タイムトラベル

データサイエンティストは、診断前の患者の医療データなど、過去の特定時間を超えるデータ (特徴量リーケージとも呼ばれる) を含むリスクなしに、過去の特定時間の特徴量値の正確なセットでモデルをトレーニングする必要がある場合があります。SageMaker Feature Store Offline API は、ポイントインタイムクエリをサポートしており、対象となる過去の時間における各特微量の状態を取得できます。

この図は、対象となった過去の時間における各特徴量の状態を取得するための Feature Store Offline API クエリのフローを示しています

セキュリティとガバナンス

リネージトラッキング

特微量を安心して再利用するためには、データサイエンティストは特微量の構築方法と、どのモデルやエンドポイントで特微量が使用されているかを知る必要があります。SageMaker Feature Store を使用すると、データサイエンティストは SageMaker Lineage を使用して Amazon SageMaker Studio 内の特微量を追跡できます。SageMaker Lineageを使用すると、スケジュールされたパイプライン実行を追跡し、アップストリームリネージを視覚化して、特徴量をデータソースまで追跡したり、特徴量の処理コードを表示したりでき、これらはすべて 1 つの環境で行えます。

この画像は、SageMaker Studio の特徴量グループの系統を示しています

機械学習の運用

特徴量ストアは、MLOps のライフサイクルにおける重要なコンポーネントです。データセットと特徴量パイプラインを管理し、データサイエンス作業を高速化し、同じ特微量を何度も作成するような重複作業を排除します。SageMaker Feature Store は、スタンドアロンサービスとして使用することも、他の SageMaker サービスと共に MLOps のライフサイクル全体で統合的に使用することも可能です。

セキュリティとコンプライアンス

セキュリティとコンプライアンスのニーズをサポートするために、共有された機械学習特徴量にアクセスする方法を細かく制御する必要がある場合があります。このようなニーズは、テーブルや列レベルのアクセス制御だけでなく、個々の行レベルのアクセス制御にまで及ぶことがよくあります。例えば、アカウント担当者に自分のアカウントだけの売上テーブルの行を表示させ、クレジットカード番号のような機密データのプレフィックスをマスクしたい場合があります。SageMaker Feature Store と AWS Lake Formation を併用することで、特微量ストアのデータを保護し、ロールに基づいてアクセスを付与するためにきめ細かいアクセスコントロールを実装できます。

画像は、SageMaker Feature Store と AWS Lake Formation を使用してきめ細かなアクセスコントロールを実装する方法を示しています

SageMaker 特徴量ストアのリソース

Blog

次のステップ

Workshop

SageMaker 特徴量ストアの使用を開始する

Guide

ステップバイステップガイドを詳しく見る

詳細はこちら

Amazon SageMaker Feature Store

機械学習の特徴量のフルマネージドサービス

仕組み

SageMaker 特徴量ストアのメリット

機能の再利用を促進する

さまざまなデータソースのサポート

MLOps プラクティスの改善

特徴量の管理

特徴量の処理と取り込み

特徴量の保存、カタログ、検索、再利用

特徴量の一貫性

タイムトラベル

セキュリティとガバナンス

リネージトラッキング

機械学習の運用

セキュリティとコンプライアンス

SageMaker 特徴量ストアのリソース

ポイントインタイムクエリでトレーニングデータを構築

チーム全体で機能を再利用できるようにする

特徴量エンジニアリングパイプラインの自動化

SageMaker 特徴量ストアの主な機能

ML 機能の保存と発見

Amazon SageMaker 特徴量ストアの詳細 (21:54)

SageMaker Feature Store でのストリーミング取り込み

最新情報

次のステップ

SageMaker 特徴量ストアの使用を開始する

ステップバイステップガイドを詳しく見る

Internet Explorer のサポートの終了