Amazon SageMaker Feature Store とは何ですか?
仕組み

SageMaker 特徴量ストアのメリット
特徴量の管理
特徴量の処理と取り込み
アプリケーションやサービスのログ、クリックストリーム、センサーなどのさまざまなソースからのデータ、および Amazon S3、Amazon Redshift、AWS Lake Formation、Snowflake、Databricks Delta Lake からの表形式データを SageMaker Feature Store に取り込むことができます。特徴量の処理を使用すると、バッチデータソースと特徴量変換関数 (製品ビュー数やタイムウィンドウ集計など) を指定でき、SageMaker Feature Store は取り込み時のデータを機械学習の特微量に変換します。Amazon SageMaker Data Wrangler を使用すると、SageMaker Feature Store に直接特徴量を公開できます。Apache Spark コネクタを使用すると、1 行のコードで大量のデータを一括取り込みできます。

特徴量の保存、カタログ、検索、再利用
SageMaker Feature Store は特徴量グループをタグ付けし、それらのインデックスを作成して、Amazon SageMaker Studio のビジュアルインターフェイスを通じて簡単に見つけることができるようにします。特徴量カタログを閲覧することで、チームは自信を持って再利用できる既存の特徴量を発見し、パイプラインの重複を回避することができます。SageMaker Feature Store は、デフォルトで AWS Glue Data Catalog を使用しますが、必要に応じて別のカタログを使用することも可能です。また、Amazon Athena や他の任意のクエリツールで使い慣れた SQL を使用して特徴量をクエリすることも可能です。

特徴量の一貫性
SageMaker Feature Store は、トレーニング用のオフラインストレージとリアルタイム推論用のオンラインストレージをサポートしています。トレーニングと推論は非常に異なるユースケースであるため、ストレージ要件はそれぞれ異なります。トレーニングにおいて、モデルは完全なデータセットを使用し、コンプリートするのに何時間もかかる一方で、推論はミリ秒単位で行う必要があり、通常はデータのサブセットを使用します。SageMaker Feature Store を併用することで、オフラインとオンラインのデータセットが同期された状態に保たれます。両者が乖離するとモデルの精度に悪影響を及ぼす可能性があるため、これは非常に重要なことです。

タイムトラベル
データサイエンティストは、診断前の患者の医療データなど、過去の特定時間を超えるデータ (特徴量リーケージとも呼ばれる) を含むリスクなしに、過去の特定時間の特徴量値の正確なセットでモデルをトレーニングする必要がある場合があります。SageMaker Feature Store Offline API は、ポイントインタイムクエリをサポートしており、対象となる過去の時間における各特微量の状態を取得できます。

セキュリティとガバナンス
リネージトラッキング
特微量を安心して再利用するためには、データサイエンティストは特微量の構築方法と、どのモデルやエンドポイントで特微量が使用されているかを知る必要があります。SageMaker Feature Store を使用すると、データサイエンティストは SageMaker Lineage を使用して Amazon SageMaker Studio 内の特微量を追跡できます。SageMaker Lineageを使用すると、スケジュールされたパイプライン実行を追跡し、アップストリームリネージを視覚化して、特徴量をデータソースまで追跡したり、特徴量の処理コードを表示したりでき、これらはすべて 1 つの環境で行えます。

機械学習の運用
特徴量ストアは、MLOps のライフサイクルにおける重要なコンポーネントです。データセットと特徴量パイプラインを管理し、データサイエンス作業を高速化し、同じ特微量を何度も作成するような重複作業を排除します。SageMaker Feature Store は、スタンドアロンサービスとして使用することも、他の SageMaker サービスと共に MLOps のライフサイクル全体で統合的に使用することも可能です。
セキュリティとコンプライアンス
セキュリティとコンプライアンスのニーズをサポートするために、共有された機械学習特徴量にアクセスする方法を細かく制御する必要がある場合があります。このようなニーズは、テーブルや列レベルのアクセス制御だけでなく、個々の行レベルのアクセス制御にまで及ぶことがよくあります。例えば、アカウント担当者に自分のアカウントだけの売上テーブルの行を表示させ、クレジットカード番号のような機密データのプレフィックスをマスクしたい場合があります。SageMaker Feature Store と AWS Lake Formation を併用することで、特微量ストアのデータを保護し、ロールに基づいてアクセスを付与するためにきめ細かいアクセスコントロールを実装できます。
