Ir para o conteúdo

Como soluciono erros que recebo quando executo a tarefa de treinamento do Amazon SageMaker IA?

2 minuto de leitura
0

Quero solucionar os erros que recebo quando executo a tarefa de treinamento do Amazon SageMaker IA.

Resolução

Para identificar o erro da sua tarefa de treinamento do SageMaker AI, verifique o motivo da falha no console do SageMaker IA ou na chamada de API DescribeTrainingJob. Em seguida, conclua a resolução do erro do seu trabalho.

Erro Interno do Servidor

Para garantir que um problema temporário não cause o erro, repita o trabalho.

Se o trabalho falhar ao tentar novamente, visualize os logs das tarefas de treinamento no Amazon CloudWatch. Analise as métricas do trabalho, como CPUUtilization, MemoryUtilization e DiskUtilization, para verificar se a falha ocorreu devido a uma limitação de recursos. Também é possível visualizar os logs de tarefas de treinamento e as métricas de tarefas no console do SageMaker IA.

Se a CPUUtilization ou MemoryUtilization for alta, use um tamanho maior de instância da tarefa de treinamento. Se DiskUtilization for alta, aumente o parâmetro VolumeSizeInGB ao criar a tarefa de treinamento.

Erro de capacidade da instância

Se a tarefa de treinamento falhar com um erro de capacidade da instância, não haverá capacidade sob demanda suficiente para concluir o trabalho. Para obter mais informações, consulte Como soluciono um erro de capacidade insuficiente ao iniciar meus recursos Amazon SageMaker IA?

Para resolver esse erro, execute uma das seguintes ações:

  • Atrase sua solicitação e tente fazer sua solicitação mais tarde. Os problemas de capacidade são transitórios e podem ser resolvidos quando você tentar novamente sua solicitação.
  • Mude para um tipo ou tamanho de instância diferente com mais capacidade.
  • Inicie a tarefa de treinamento em uma região diferente da AWS.

Erro MaxRuntimeExceeded

O runtime máximo padrão para uma tarefa de treinamento é de 1 dia. É possível ajustar o runtime para um máximo de 28 dias. Para aumentar o valor máximo do runtime, passe o parâmetro MaxRuntimeInSeconds na API CreateTrainingJob ou o parâmetro max_run em seu Estimator SDK para Python do SageMaker IA. Para obter mais informações, consulte Estimadores no site Amazon SageMaker Python SDK.

Informações relacionadas

Logs para algoritmos integrados

AWS OFICIALAtualizada há um ano