什麼是 SageMaker HyperPod?
Amazon SageMaker HyperPod 消除了建置和最佳化機器學習 (ML) 基礎設施所涉及的無差異化繁重工作。該服務已預先設定 SageMaker 的分散式訓練程式庫,可自動將訓練工作負載分發至成千上萬個 AI 加速器,因此可平行處理工作負載,從而提高模型效能。SageMaker HyperPod 可透過定期儲存檢查點,來確保您能夠不間斷持續 FM 訓練。發生硬體故障時,它會自動偵測、修復或取代故障執行個體,並從上次儲存的檢查點繼續訓練,無需手動管理此程序。彈性環境可讓您在分散式環境中訓練模型數週或數月,而不會中斷,從而節省高達 40% 的訓練時間。SageMaker HyperPod 還可高度自訂,讓您能夠有效地執行和擴展 FM 工作負載,從大規模訓練到推論,輕鬆地在不同工作負載之間共用運算容量。
SageMaker HyperPod 的優勢
高效能分散式訓練程式庫
使用 SageMaker 的分散式訓練程式庫,您可以平行執行高度可擴展且經濟高效的自訂資料,並對平行深度學習訓練任務建模。SageMaker HyperPod 預先配置了 SageMaker 分散式庫。只需幾行程式碼,您即可在訓練指令碼中啟用資料平行性。SageMaker HyperPod 透過在 AWS GPU 執行個體之間自動分割模型和訓練資料集,讓您更快執行分散式訓練。
工作負載排程和協同運作
SageMaker HyperPod 使用者介面可使用 Slurm 或 Amazon EKS 進行高度自訂。您可以選擇並安裝任何需要的框架或工具。所有叢集都會以您選擇的執行個體類型和數量佈建,並在工作負載間保留供您使用。
自動叢集運作狀態檢查和修復
如果任何執行個體在訓練工作負載期間出現故障,SageMaker HyperPod 會自動偵測並以正常節點替換故障節點。為了偵測硬體故障,SageMaker HyperPod 定期執行一系列 GPU 和網路完整性的運作狀態檢查。
可擴展性和最佳化資源使用率
您能夠以一致的 Kubernetes 管理員體驗,來管理和操作 SageMaker HyperPod 叢集。這可讓您高效地執行和擴展 FM 工作負載,從訓練、微調、試驗到推論。您可以輕鬆共用運算容量,並在 Slurm 和 EKS 之間切換不同類型的工作負載。
憑藉進階可觀測性提升效能
您可以在 SageMaker HyperPod 中使用建置的 ML 工具,以提升模型效能。例如,Amazon SageMaker 搭配 TensorBoard 可協助您視覺化模型架構來識別和修復聚合問題,藉此來節省開發時間,而 Amazon SageMaker Debugger 則可即時擷取指標和分析訓練任務。與 Amazon CloudWatch Container Insights 整合可提供有關叢集效能、運作狀態和使用率的深入洞察。