Por que o CloudWatch mostra que a utilização da CPU ou GPU do endpoint do Amazon SageMaker é maior que 100%?

2 minuto de leitura
0

A métrica de utilização de CPU ou GPU do Amazon CloudWatch do endpoint do Amazon SageMaker é maior que 100%.

Resolução

As métricas CPUUtilization e GPUUtilization do CloudWatch mostram a porcentagem de unidades de CPU ou GPU que os contêineres estão usando. O valor é multiplicado pelo número de CPUs ou GPUs, e é por isso que o valor pode ser maior que 100%.

Aqui estão alguns exemplos:

  • Para uma instância sem GPU, como ml.m4.xlarge, a CPUUtilization pode variar de 0 a 400% porque a instância tem quatro vCPUs.
  • Para uma instância de GPU como ml.p3.8xlarge, a CPUUtilization pode variar de 0 a 3200%. A CPUUtilization pode variar de 0 a 400%. Isso ocorre porque a instância tem 32 vCPUs e quatro GPUs.
  • Para várias instâncias, a visualização padrão no CloudWatch mostra a utilização média da CPU ou da GPU em todas as instâncias. Por exemplo, se você tiver cinco instâncias ml.m4.xlarge, a CPUUtilization pode variar de 0 a 400% porque cada instância tem quatro vCPUs.

Para mais informações sobre as métricas CPUUtilization e GPUUtilization, consulte Monitore o Amazon SageMaker com o Amazon CloudWatch. Para uma lista de quantas vCPUs ou GPUs existem em cada tipo de instância, consulte os preços do Amazon SageMaker.


AWS OFICIAL
AWS OFICIALAtualizada há 2 anos