Wie behebe ich Fehler bei der Ausführung von Amazon-SageMaker-Schulungsaufträgen?

Lesedauer: 2 Minute
0

Ich möchte Fehler bei der Ausführung von Amazon-SageMaker-Schulungsaufträgen beheben.

Auflösung

Ihr SageMaker-Schulungsaustrag kann aus mehreren Gründen fehlschlagen. Um den Grund für den Fehler zu ermitteln, überprüfen Sie den Fehlergrund in der SageMaker-Konsole oder über den API-Aufruf DescribeTrainingJob. Verwenden Sie die folgenden Schritte zur Fehlerbehebung basierend auf dem Fehler, den Sie erhalten, wenn Ihr Schulungsauftrag fehlschlägt.

Interner Serverfehler

Wenn Ihr SageMaker-Schulungsauftrag mit dem internen Serverfehler fehlgeschlagen ist, wiederholen Sie den Job, um sicherzustellen, dass der Auftrag nicht aufgrund eines vorübergehenden Problems fehlgeschlagen ist. Wenn der Auftrag fehlschlägt, wenn Sie es erneut versuchen, überprüfen Sie die Protokolle für Schulungsaufträge auf Amazon CloudWatch. Sie finden diese Protokolle in CloudWatch unter der Protokollgruppe /aws/sagemaker/TrainingJobs im Protokollstream, der wie folgt aussieht:

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp

Überprüfen Sie außerdem Auftragsmetriken wie CPUUtilization, MemoryUtilization und DiskUtilization, um sicherzustellen, dass der Fehler nicht aufgrund einer Ressourcenkrise aufgetreten ist.

Sie können auf die Schulungsauftragsprotokolle und Job-Metriken zugreifen, indem Sie Folgendes tun:

  1. Öffnen Sie die SageMaker-Konsole.
  2. Wählen Sie Schulungsaufträge und dann den Schulungsauftrag aus, für den Sie die Metriken anzeigen möchten.
  3. Wählen Sie TrainingJobName.
  4. Wählen Sie im Abschnitt Überwachen die Option Protokolle anzeigen.
  5. Überprüfen Sie im Abschnitt Monitor die Diagramme der Instance-Nutzung.

Wenn Sie feststellen, dass der Auftrag alle Ressourcen verbraucht, wechseln Sie zu einem größeren Instance-Typ oder fügen Sie ein größeres Speichervolume an die Instance an.

Weitere Informationen finden Sie unter Überwachen von Trainingsauftragsmetriken (SageMaker-Konsole).


Relevante Informationen

Überwachen und Analysieren von Schulungsaufträgen mithilfe von Amazon-CloudWatch-Metriken

Protokolle für eingebaute Algorithmen

AWS OFFICIAL
AWS OFFICIALAktualisiert vor 2 Jahren