CloudWatchがAmazon SageMaker エンドポイントの CPU または GPU 使用率が 100% を超えていることが示されるのはなぜですか?

所要時間1分
0

Amazon SageMaker エンドポイントの Amazon CloudWatch CPU または GPU 使用率メトリクスが 100% を超えています。

解決方法

CloudWatch の CPUUtilization および GPUUtilization メトリクスは、コンテナが使用している CPU または GPU ユニットの割合を示します。この値に CPU または GPU の数が乗算されます。そのため、値が 100% を超える可能性があります。

次に例を示します。

  • ml.m4.xlarge などの GPU 以外のインスタンスの場合、インスタンスに 4 つの vCPU があるため、CPUUtilization は 0~400% の範囲になります。
  • ml.p3.8xlarge などの GPU インスタンスの場合、CPUUtilization は 0~3200% の範囲になります。GPUUtilization は 0~400% の範囲になります。これは、インスタンスに 32 個の vCPU と 4 個の GPU があるためです。
  • 複数のインスタンスの場合、CloudWatch のデフォルトビューには、すべてのインスタンスの平均 CPU または GPU 使用率が表示されます。たとえば、ml.m4.xlarge インスタンスが 5 つある場合、各インスタンスに 4 つの vCPU があるため、CPUUtilization は 0~400% の範囲になります。

CPUUtilizationGPUUtilization メトリクスの詳細については、Amazon CloudWatch を使用して Amazon SageMaker を監視するを参照してください。各インスタンスタイプにある vCPU または GPU の数の一覧については、Amazon SageMaker の料金を参照してください。


AWS公式
AWS公式更新しました 2年前
コメントはありません

関連するコンテンツ