如何对 SageMaker AI 端点的自动扩缩问题进行故障排除?

1 分钟阅读
0

我想对 Amazon SageMaker AI 端点的自动扩缩问题进行故障排除。

解决方案

**注意:**如果您在运行 AWS 命令行界面 (AWS CLI) 命令时收到错误,请参阅 AWS CLI 错误故障排除。此外,请确保您使用的是最新版本的 AWS CLI

根据您遇到的问题,对 SageMaker AI 端点的自动扩缩进行故障排除。

“已超过资源限制”错误

如果您在扩展 SageMaker AI 端点时达到服务配额,则会收到类似于以下内容的错误消息:

"Failed to set desired instance count to 2.Reason: The account-level service limit 'ml.p2.xlarge for endpoint usage' is 1 Instance, with current utilization of 0 Instances and a request delta of 2 Instances.Please use AWS Service Quotas to request an increase for this quota."

要解决此问题,请查看您的实例类型的服务配额。如果您已达到配额,请申请增加服务配额

扩展所需的时间比预期的要长

如果您的横向扩展过程很长但冷却时间很短,则您的 Amazon CloudWatch 警报可能会在您激活扩展之前聚合多个数据点。要解决此问题,请减少 Amazon CloudWatch 警报设置中的要报警的数据点

此外,其他扩展策略或服务配额可能会导致您的扩展过程所需的时间长于预期。因此,请检查您的配置和服务配额以确定问题。

您的自动扩缩策略未按预期缩减实例

如果您的自动扩缩策略未按预期缩减实例大小,且流量较低,请执行以下操作:

  • 为您的策略配置正确的指标。对于异步端点,请使用 ApproximateBacklogSizePerInstance 指标。对于实时端点,请使用 InvocationsPerInstance 指标。
  • 要提高自动扩缩的响应速度,请调整您的扩展阈值、冷却时间和其他与工作负载相关的参数。
  • 检查您的策略是否基于 CPU 利用率指标进行扩展。基于 CPU 利用率指标进行扩展的策略在流量减少时可能不会缩减。
  • 如果您在扩展策略中设置了预热时间,请将策略与您的实例管理流量变化的速度保持一致。正在预热的实例不计入扩展的聚合指标。

在某些情况下未激活自动扩缩

以下情况会导致自动扩缩无法激活:

  • 实例类型在所选可用区中不可用。
  • 所选实例类型的容量不足。
  • 未正确配置扩展策略。

要解决自动扩缩失败问题,请执行以下操作:

  • 检查您当前使用的可用区中的实例类型可用性。
  • 增加扩展阈值以更早地激活横向扩展。
  • 使用具有更多可用容量的其他实例类型。
  • 配置 CloudWatch 警报以监控您的指标。此外,请确保在满足缩减条件时警报转换为 ALARM 状态。要监控您的扩展活动,请运行以下 application-autoscaling 命令:
    aws application-autoscaling describe-scaling-activities --service-namespace sagemaker --resource-id example-resource-id --include-not-scaled-activities
    **注意:**请将 example-resource-id 替换为您的资源 ID。

相关信息

什么是服务配额?

Amazon SageMaker AI 模型的自动扩缩

使用 Amazon CloudWatch 监控 Amazon SageMaker AI 的指标

异步推理

AWS 官方
AWS 官方已更新 3 个月前