重要更新
感谢您对 Amazon SageMaker Inference 的关注。Amazon SageMaker Inference 不再面向新客户提供。通过使用 AWS Inferentia 等其他硬件加速选项,您可以以更低的成本为机器学习推理工作负载提供更好的性能。如果您目前正在使用 Amazon Elastic Inference,不妨考虑将您的工作负载迁移到这些替代方案。要了解更多信息,请访问 AWS 机器学习基础设施页面。
一般性问题
问:为什么 Amazon 鼓励客户将工作负载从 Amazon Elastic Inference(EI)转移到更新的硬件加速选项,例如 AWS Inferentia?
借助新的硬件加速器选项,例如用于推理工作负载的 AWS Inferentia,客户可以以比 Amazon EI 优惠得多的价格获得更好的性能。AWS Inferentia 旨在在云中提供高性能推理,降低推理的总成本,并使开发人员能够轻松地将机器学习集成到他们的业务应用程序中。为了使客户能够从此类新一代硬件加速器中受益,2023 年 4 月 15 日之后,我们将不再允许新客户加入 Amazon EI。
问:停止新客户加入 Amazon Elastic Inference(EI)的举措会影响哪些 AWS 服务?
该公告将影响连接到任何 Amazon EC2、Amazon SageMaker 实例或 Amazon Elastic Container Service(ECS)任务的 Amazon EI 加速器。在 Amazon SageMaker 中,这适用于使用 Amazon EI 加速器的端点和笔记本电脑内核。
问:2023 年 4 月 15 日之后,我能否创建新的 Amazon Elastic Inference(EI)加速器?
不能,如果您是新客户并且在过去 30 天内没有使用过 Amazon EI,那么在 2023 年 4 月 15 日之后,您将无法在您的 AWS 账户中创建新的 Amazon EI 实例。但是,如果您在过去 30 天内至少使用过一次 Amazon EI 加速器,则可以将新的 Amazon EI 加速器连接到您的实例。
问:我们目前使用 Amazon Elastic Inference(EI)加速器。2023 年 4 月 15 日之后,我们还能继续使用它们吗?
能,您将能够使用 Amazon EI 加速器。我们建议您尽早将当前在 Amazon EI 上运行的 ML Inference 工作负载迁移到其他硬件加速器选项。
问:如何评估我当前的 Amazon SageMaker Inference 端点的备用实例选项?
Amazon SageMaker Inference Recommender 可以帮助您确定经济实惠的部署,以便将现有工作负载从 Amazon Elastic Inference(EI)迁移到 SageMaker 支持的相应机器学习实例。
问:如何在 Amazon SageMaker 中更改现有端点的实例类型?
- 首先,创建一个使用新实例类型的新 EndpointConfig。如果您设置了自动扩缩策略,请删除现有的自动扩缩策略。
- 在指定新创建的 EndpointConfig 时调用 UpdateEndpoint。
- 等待您的端点将状态更改为 InService。这将需要大约 10-15 分钟
- 最后,如果您需要针对新端点自动扩缩,请为该新端点和 ProductionVariant 创建新的自动扩缩策略。
问:如何使用 Amazon Elastic Inference(EI)更改现有 Amazon SageMaker 笔记本电脑实例的实例类型?
在控制台中单击笔记本实例,然后单击要更新的笔记本电脑实例。确保笔记本电脑实例处于“已停止”状态。最后,您可以单击 “编辑” 并更改您的实例类型。确保在笔记本电脑实例启动时,为新实例选择正确的内核。
问:是否有特定实例类型可以很好地替代 Amazon Elastic Inference(EI)?
每个机器学习工作负载都是独一无二的。我们建议使用 Amazon SageMaker Inference Recommender 来帮助您确定适合您的机器学习工作负载、性能要求和预算的正确实例类型。对 Amazon EI 客户来说,AWS Inferentia(特别是 inf1.xlarge)是最佳的高性能和低成本替代方案。在下表中,我们比较了带有 Inferentia 的 SageMaker 上不同 Amazon EI 加速器选项的性能和每小时价格。假设使用的是 c5.xlarge 主机实例,Inferentia 可提供最佳性价比,而且每小时费用比所有 Amazon EI 实例都更便宜(参见下表)。请注意,模型必须先进行编译,然后才能在 AWS Inferentia 上部署。SageMaker 客户可以使用将“ml_inf”设置为 TargetDevice 的 SageMaker Neo 来编译模型。如果您没有使用 SageMaker,请直接使用 AWS Neuron 编译器。
以下价格是基于 us-east-2 区域做出的假设
实例类型 + Elastic Inference | 每小时 EI 价格 | 每小时 EI 总成本 | 与 AWS Inferentia 相比更高 | 与 EI 相比,Inferentia 可以节省成本 | 性能(FP16 TFLOP) | 使用 Inferentia 可提高性能 |
ml.c5.xlarge + ml.eia2.medium | 0.17 USD | 0.37 USD | 0.07 USD | 19% | 8 | 8 倍 |
ml.c5.xlarge + ml.eia1.medium | 0.18 USD | 0.39 USD | 0.09 USD | 23% | 8 | 8 倍 |
ml.c5.xlarge + ml.eia2.large | 0.34 USD | 0.54 USD | 0.24 USD | 44% | 16 | 4 倍 |
ml.c5.xlarge + ml.eia1.large | 0.36 USD | 0.57 USD | 0.27 USD | 47% | 16 | 4 倍 |
ml.c5.xlarge + ml.eia2.xlarge | 0.48 USD | 0.68 USD | 0.38 USD | 56% | 32 | 2 倍 |
ml.c5.xlarge + ml.eia1.xlarge | 0.73 USD | 0.93 USD | 0.63 USD | 68% | 32 | 2 倍 |
问:什么是 Amazon Elastic Inference?
答:Amazon Elastic Inference (Amazon EI) 是一项加速的计算服务,它允许您向任何 Amazon EC2 或 Amazon SageMaker 实例类型或 Amazon ECS 任务连接适当量级的 GPU 驱动的推理加速。也就是说,您现在可以选择最适合应用整体计算、内存和存储需求的实例类型,然后单独配置所需量级的推理加速。
问:什么是 Amazon Elastic inference 加速器?
答:Amazon Elastic Inference 加速器是 GPU 驱动的硬件设备,旨在与 EC2 实例、Sagemaker 实例或 ECS 任务配合使用,以较低成本加速深度学习推理工作负载。使用 Amazon Elastic Inference 启动 EC2 实例或 ECS 任务时,将通过网络预置加速器并将其连接到实例。为 Amazon Elastic Inference 启用的深度学习工具和框架(如 TensorFlow Serving、Apache MXNet 和 PyTorch)可以自动检测模型计算,并将其分流到已连接的加速器。
问:Amazon Elastic Inference 加速器系列类型之间有什么差异?
答:EIA2 加速器的 GPU 内存是等效的 EIA1 加速器的两倍。您可以根据您的型号和 Tensor 输入大小确定您的 GPU 内存需求,并选择适合您需求的加速器系列和类型。
配置
问:如何预置 Amazon Elastic inference 加速器?
答:您可以使用 AWS 管理控制台、AWS 命令行界面 (CLI) 或 AWS 软件开发工具包为 Amazon SageMaker 终端节点或 Amazon EC2 实例或 Amazon ECS 任务配置 Amazon Elastic Inference 加速器。使用加速器启动 EC2 实例需满足两个要求。首先,需要为您计划启动加速器的子网预置 AWS PrivateLink VPC 终端节点。其次,在启动实例时,您需要为实例角色提供一个策略,用于允许用户访问要连接到加速器的实例。将实例配置为使用 Amazon EI 启动时,将在 VPC 终端节点后的同一个可用区中预置加速器。
问:Amazon Elastic Inference 支持哪些模型格式?
答:Amazon Elastic Inference 支持使用 TensorFlow、Apache MXNet、PyTorch 和 ONNX 模型训练的模型。
问:我能否使用 TensorFlow、Apache MXNet 或 PyTorch 框架在 Amazon Elastic Inference 上部署模型?
答:能,您可以使用 AWS 增强型 TensorFlow Serving、Apache MXNet 和 PyTorch 库部署模型,并进行推理调用。
问:如何访问 AWS 优化型框架?
答:AWS 深度学习 AMI 包含已经过优化的 TensorFlow Serving、Apache MXNet 和 PyTorch 的最新版本,可以与 Amazon Elastic Inference 加速器结合使用。此外,您还可以通过 Amazon S3 获取库,以构建自己的 AMI 或容器映像。请查阅我们的文档 (https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/elastic-inference.html) 以了解更多信息。
问:我能否将 CUDA 与 Amazon Elastic inference 加速器结合使用?
答:不能。您只能将 AWS 增强型 TensorFlow Serving、Apache MXNet 或 PyTorch 库作为 Amazon Elastic Inference 加速器的接口。
定价与计费
问:Amazon Elastic Inference 是如何收费的?
答:您只需为使用 Amazon Elastic Inference 加速器的小时数付费。有关更多详细信息,请参阅定价页面。
问:我需要为 Amazon Elastic Inference 服务的 AWS PrivateLink VPC 终端节点付费吗?
问:不需要。只要您至少为一个实例配置了加速器,并且它正在预置了 VPC 终端节点的可用区中运行,就无需为 Amazon Elastic Inference 服务的 VPC 终端节点付费。