我的 Amazon SageMaker 端点的 Amazon CloudWatch CPU 或 GPU 利用率指标大于 100%。
解决方法
CloudWatch CPUUtilization和 GPUUtilization 指标显示容器目前使用的 CPU 或 GPU 单元的百分比。该值已乘以 CPU 或 GPU 的数量,因此其值可能大于 100%。
下面是一些示例:
- 对于非 GPU 实例(如 ml.m4.xlarge),CPUUtilization 可以介于 0 到 400% 之间,因为该实例有四个 vCPU。
- 对于像 ml.p3.8xlarge 这样的 GPU 实例,CPUUtilization 可以介于 0 到 3200% 之间。GPUUtilization 可以介于 0 到 400% 之间。这是因为该实例有 32 个 vCPU 和 4 个 GPU。
- 对于多个实例,CloudWatch 中的默认视图显示所有实例的平均 CPU 或 GPU 使用率。例如,如果您有五个 ml.m4.xlarge 实例,CPUUtilization 可以介于 0 到 400% 之间,因为每个实例都有四个 vCPU。
有关 CPUUtilization 和 GPUUtilization 指标的更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon SageMaker。有关每种实例类型中包含多少 vCPU 或 GPU 的列表,请参阅 Amazon SageMaker 定价。