CloudWatch에서 내 Amazon SageMaker 엔드포인트의 CPU 또는 GPU 사용률이 100%를 초과하는 것으로 표시되는 이유가 무엇인가요?

1분 분량
0

내 Amazon SageMaker 엔드포인트의 Amazon CloudWatch CPU 또는 GPU 사용률 지표가 100%를 초과합니다.

해결 방법

CloudWatch CPUUtilizationGPUUtilization 지표는 컨테이너에서 사용 중인 CPU 또는 GPU 단위의 백분율을 표시합니다. 값에 CPU 또는 GPU 수이 곱해져서 값이 100%를 초과하는 것입니다.

다음은 몇 가지 예입니다.

  • ml.m4.xlarge 등의 비 GPU 인스턴스는 vCPU가 4개이므로 CPUUtilization 범위가 0 ~ 400%일 수 있습니다.
  • ml.p3.8xlarge 등의 GPU 인스턴스는 CPUUtilization 범위가 0 ~ 3200%일 수 있습니다. GPUUtilization 범위는 0 ~ 400%일 수 있습니다. 인스턴스의 vCPU가 32개이고 GPU가 4개이기 때문입니다.
  • 인스턴스가 여러 개인 경우 모든 인스턴스의 평균 CPU 또는 GPU 사용률이 CloudWatch의 기본 보기에 표시됩니다. 예를 들어 ml.m4.xlarge 인스턴스가 5개인 경우 인스턴스마다 4개의 vCPU가 있으므로 CPUUtilization 범위가 0~400%일 수 있습니다.

CPUUtilizationGPUUtilization 지표에 대한 자세한 내용은 Amazon CloudWatch로 Amazon SageMaker 모니터링을 참조하세요. 각 인스턴스 유형의 vCPU 또는 GPU 수 목록은 Amazon SageMaker 요금을 참조하세요.


AWS 공식
AWS 공식업데이트됨 2년 전