Quero solucionar erros ao executar trabalhos de treinamento do Amazon SageMaker.
Resolução
Seu trabalho de treinamento do SageMaker pode falhar por vários motivos. Para identificar o motivo da falha, verifique-o no console do SageMaker ou por meio da chamada de API DescribeTrainingJob. Use as etapas de solução de problemas a seguir com base no erro que você recebe quando seu trabalho de treinamento falha.
Erro interno do servidor
Se o trabalho de treinamento do SageMaker falhou com o erro interno do servidor, tente novamente para garantir que o trabalho não tenha falhado devido a um problema temporário. Se o trabalho falhar quando você tentar novamente, revise os logs dos trabalhos de treinamento no Amazon CloudWatch. Você pode encontrar esses registros no CloudWatch no grupo de logs /aws/sagemaker/TrainingJobs no fluxo de logs que se parece com o seguinte:
example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp
Além disso, revise as métricas do trabalho, como CPUUtilization, MemoryUtilization e DiskUtilization, para garantir que a falha não tenha ocorrido devido a uma escassez de recursos.
Você pode acessar os logs de trabalhos de treinamento e as métricas de trabalho fazendo o seguinte:
- Abra o console do SageMaker.
- Escolha Trabalhos de treinamento e, em seguida, escolha o trabalho de treinamento cujas métricas você deseja ver.
- Escolha TrainingJobName.
- Na seção Monitor, escolha Exibir logs.
- Na seção Monitor, revise os gráficos de utilização da instância.
Se você descobrir que o trabalho está usando todos os recursos, mude para um tipo de instância maior ou anexe um volume de armazenamento maior à instância.
Para obter mais informações, consulte Monitorar métricas de trabalhos de treinamento (console do SageMaker).
Informações relacionadas
Monitorar e analisar trabalhos de treinamento usando métricas do Amazon CloudWatch
Logs para algoritmos integrados