Amazon SageMaker HyperPod

在数千个 AI 加速器上扩展和加速生成式人工智能模型的开发

什么是 SageMaker HyperPod？

Amazon SageMaker HyperPod 可省去构建生成式人工智能模型所涉及的千篇一律的繁重工作。它有助于快速扩展模型开发任务，例如在数百个或数千个人工智能加速器的集群中训练、微调或推理。SageMaker HyperPod 支持对所有模型开发任务进行集中治理，让您可以全面了解和控制不同任务的优先级以及如何为每项任务分配计算资源，从而帮助您最大限度地提高集群的 GPU 和 AWS Trainium 利用率，并加速创新。

借助 SageMaker HyperPod，您可以高效地在所有加速器上分配和并行执行您的训练工作负载。SageMaker HyperPod 会自动为常用的公开模型应用最佳训练配置，以助您快速实现最佳性能。它还会持续监控您的集群中是否存在任何基础设施故障、自动修复问题，并且无需人工干预即可恢复工作负载，所有这些都可助您节省多达 40% 的训练时间。

SageMaker HyperPod 的优势

通过集中治理所有模型开发任务降低成本

借助 SageMaker HyperPod 任务治理创新，您可以全面了解和控制生成式人工智能模型开发任务（例如训练和推理）中的计算资源分配。SageMaker HyperPod 可自动管理任务队列，确保最关键的任务得到优先处理并在预算内按时完成，同时可以更有效地使用计算资源，将模型开发成本降低高达 40%。