Quero solucionar os erros que recebo quando executo a tarefa de treinamento do Amazon SageMaker IA.
Resolução
Para identificar o erro da sua tarefa de treinamento do SageMaker AI, verifique o motivo da falha no console do SageMaker IA ou na chamada de API DescribeTrainingJob. Em seguida, conclua a resolução do erro do seu trabalho.
Erro Interno do Servidor
Para garantir que um problema temporário não cause o erro, repita o trabalho.
Se o trabalho falhar ao tentar novamente, visualize os logs das tarefas de treinamento no Amazon CloudWatch. Analise as métricas do trabalho, como CPUUtilization, MemoryUtilization e DiskUtilization, para verificar se a falha ocorreu devido a uma limitação de recursos. Também é possível visualizar os logs de tarefas de treinamento e as métricas de tarefas no console do SageMaker IA.
Se a CPUUtilization ou MemoryUtilization for alta, use um tamanho maior de instância da tarefa de treinamento. Se DiskUtilization for alta, aumente o parâmetro VolumeSizeInGB ao criar a tarefa de treinamento.
Erro de capacidade da instância
Se a tarefa de treinamento falhar com um erro de capacidade da instância, não haverá capacidade sob demanda suficiente para concluir o trabalho. Para obter mais informações, consulte Como soluciono um erro de capacidade insuficiente ao iniciar meus recursos Amazon SageMaker IA?
Para resolver esse erro, execute uma das seguintes ações:
- Atrase sua solicitação e tente fazer sua solicitação mais tarde. Os problemas de capacidade são transitórios e podem ser resolvidos quando você tentar novamente sua solicitação.
- Mude para um tipo ou tamanho de instância diferente com mais capacidade.
- Inicie a tarefa de treinamento em uma região diferente da AWS.
Erro MaxRuntimeExceeded
O runtime máximo padrão para uma tarefa de treinamento é de 1 dia. É possível ajustar o runtime para um máximo de 28 dias. Para aumentar o valor máximo do runtime, passe o parâmetro MaxRuntimeInSeconds na API CreateTrainingJob ou o parâmetro max_run em seu Estimator SDK para Python do SageMaker IA. Para obter mais informações, consulte Estimadores no site Amazon SageMaker Python SDK.
Informações relacionadas
Logs para algoritmos integrados