Je veux résoudre les erreurs lors de l'exécution des tâches d'entraînement Amazon SageMaker.
Solution
Votre tâche d'entraînement SageMaker peut échouer pour de multiples raisons. Vous pouvez identifier la raison de l'échec dans la console SageMaker ou par le biais de l'appel d'API DescribeTrainingJob. Utilisez les étapes de résolution des problèmes suivantes en fonction de l'erreur que vous obtenez lorsque votre tâche d'entraînement échoue.
Erreur interne du serveur
Si votre tâche d'entraînement SageMaker a échoué avec l'erreur interne du serveur, réessayez la tâche pour vous assurer qu'elle n'a pas échoué à cause d'un problème transitoire. Si la tâche échoue lorsque vous réessayez, consultez les journaux des tâches d'entraînement sur Amazon CloudWatch. Vous pouvez trouver ces journaux dans CloudWatch sous le groupe de journaux /aws/sagemaker/TrainingJobs dans le flux de journaux qui ressemble à ce qui suit :
example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp
Examinez également les métriques de la tâche, telles que CPUUtilization, MemoryUtilization et DiskUtilization, pour vous assurer que l'échec n'est pas lié à un manque de ressources.
Vous pouvez accéder aux journaux des tâches d'entraînement et aux métriques des tâches en suivant les étapes suivantes :
- Ouvrez la console SageMaker.
- Sélectionnez Training jobs (Tâches d'entraînement), puis choisissez la tâche d'entraînement pour laquelle vous voulez voir les métriques.
- Sélectionnez TrainingJobName.
- Dans la section Monitor (Surveiller), sélectionnez View logs (Afficher les journaux).
- Dans la section Monitor (Surveiller), examinez les graphiques d'utilisation des instances.
Si vous constatez que la tâche utilise toutes les ressources, passez à un type d'instance plus grand ou attachez un volume de stockage plus important à l'instance.
Pour plus d'informations, consultez Surveillance des métriques d'une tâche d'entraînement (Console SageMaker).
Informations connexes
Surveillance et analyse des tâches d'entraînement à l'aide de métriques Amazon CloudWatch
Journaux pour les algorithmes intégrés