Amazon SageMaker HyperPod

基盤モデルのトレーニング時間を最大 40% 短縮し、1,000 個を超える AI アクセラレーター全体で効率的にスケール

SageMaker HyperPod とは?

Amazon SageMaker HyperPod は、機械学習 (ML) インフラストラクチャの構築と最適化に伴う差別化につながらない重労働を排除します。SageMaker HyperPod は、トレーニングワークロードを千個を超えるアクセラレータ全体に自動分割して、モデルパフォーマンスの向上のためにワークロードを並行処理できるようにする、SageMaker の分散トレーニングライブラリで事前設定されています。SageMaker HyperPod は、チェックポイントを定期的に保存することで、FM トレーニングが中断されないようにします。ハードウェア障害を発生時に自動検知し、障害が発生したインスタンスを修復または交換して、最後に保存されたチェックポイントからトレーニングを再開するため、このプロセスを手動で管理する必要がなくなります。レジリエントな環境は、モデルのトレーニングを分散された設定内で中断なく数週間または数か月間実行することを可能にするため、トレーニング時間が最大 40% 短縮されます。SageMaker HyperPod では高度なカスタマイズも可能であるため、FM ワークロードを効率的に実行およびスケールするとともに、大規模なトレーニングから推論におよぶさまざまなワークロード間でコンピューティングキャパシティを簡単に共有することができます。

SageMaker ハイパーポッドのメリット

Amazon SageMaker HyperPod では、Amazon SageMaker 分散トレーニングライブラリが事前設定されているため、モデルとトレーニングデータセットを AWS クラスターインスタンス全体で自動的に分割して、トレーニングワークロードを効率的にスケールできます。
Amazon SageMaker 分散トレーニングライブラリは、データ並列処理とモデル並列処理という 2 つの手法を通じて、AWS のネットワークインフラストラクチャとクラスタートポロジ向けにトレーニングジョブを最適化します。モデル並列処理は、大きすぎて単一の GPU に適さないモデルを小さな部分に分割してから、複数の GPU に分散してトレーニングします。データ並列処理では、トレーニングの速度を上げるために、大規模なデータセットを分割して同時にトレーニングします。
SageMaker HyperPod は、障害を自動的に検出および診断し、その障害から回復することで、より高い回復力を備えたトレーニング環境を実現します。これにより、お客様は中断することなく FM を数か月間継続してトレーニングできます。

スケーラビリティと最適化されたリソース活用

SageMaker HyperPod クラスターの管理と運用は、一貫的な Kubernetes ベースの管理者エクスペリエンスを用いて実行することができます。そうすることで、トレーニングから、微調整、実験、および推論におよぶ FM ワークロードを効率的に実行し、スケールすることが可能になります。コンピューティングキャパシティを簡単に共有し、異なるタイプのワークロードに合わせて Slurm と EKS を切り替えることができます。

ワークロードのスケジューリングとオーケストレーション

SageMaker HyperPod のユーザーインターフェイスは、Slurm または Amazon EKS を使用して高度にカスタマイズできます。必要なフレームワークやツールを選択してインストールできます。すべてのクラスターは、選択したインスタンスタイプとカウントでプロビジョニングされ、ワークロード全体で使用できるように保持されます。

高性能な分散トレーニングライブラリ

SageMaker の分散トレーニングライブラリを使用すると、カスタムデータおよびモデルのスケーラビリティとコスト効率性に優れた並行深層学習トレーニングジョブを実行できます。SageMaker HyperPod には、SageMaker の配布ライブラリがあらかじめ設定されています。わずか数行のコードで、トレーニングスクリプトでデータの並列処理を有効にできます。SageMaker HyperPod では、モデルとトレーニングデータセットを AWS GPU インスタンス間で自動的に分割することで、分散トレーニングをより迅速に実行できます。

詳細を確認する

クラスタのヘルスチェックと自動修復

トレーニングワークロード中にインスタンスに不具合が生じた場合、SageMaker HyperPod は自動的に障害のあるノードを検出し、正常なノードと交換します。障害のあるハードウェアを検出するために、SageMaker HyperPod は定期的に GPU とネットワークの整合性について一連のヘルスチェックを実行します。 

パフォーマンス向上のための高度なオブザーバビリティ

SageMaker HyperPod の組み込み ML ツールを使用して、モデルパフォーマンスを向上させることができます。例えば、Amazon SageMaker with TensorBoard はモデルアーキテクチャを可視化してコンバージェンス問題の特定と修正を行うことで開発時間を短縮できるようにし、Amazon SageMaker Debugger はリアルタイムでメトリクスをキャプチャして、トレーニングジョブのプロファイリングを行います。Amazon CloudWatch Container Insights との統合は、クラスターのパフォーマンス、正常性、および使用率に関するより深いインサイトを提供します。 

詳細はこちら »