Amazon SageMaker エンドポイントの Amazon CloudWatch CPU または GPU 使用率メトリクスが 100% を超えています。
解決方法
CloudWatch の CPUUtilization および GPUUtilization メトリクスは、コンテナが使用している CPU または GPU ユニットの割合を示します。この値に CPU または GPU の数が乗算されます。そのため、値が 100% を超える可能性があります。
次に例を示します。
- ml.m4.xlarge などの GPU 以外のインスタンスの場合、インスタンスに 4 つの vCPU があるため、CPUUtilization は 0~400% の範囲になります。
- ml.p3.8xlarge などの GPU インスタンスの場合、CPUUtilization は 0~3200% の範囲になります。GPUUtilization は 0~400% の範囲になります。これは、インスタンスに 32 個の vCPU と 4 個の GPU があるためです。
- 複数のインスタンスの場合、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 CPU または GPU 使用率が表示されます。たとえば、ml.m4.xlarge インスタンスが 5 つある場合、各インスタンスに 4 つの vCPU があるため、CPUUtilization は 0~400% の範囲になります。
CPUUtilization と GPUUtilization メトリクスの詳細については、Amazon CloudWatch を使用して Amazon SageMaker を監視するを参照してください。各インスタンスタイプにある vCPU または GPU の数の一覧については、Amazon SageMaker の料金を参照してください。