Ich möchte Fehler beheben, die ich erhalte, wenn ich Amazon-SageMaker-KI-Trainingsjobs ausführe.
Lösung
Um den Fehler des SageMaker-KI-Trainingsjobs zu ermitteln, überprüfe den Fehlergrund in der SageMaker-KI-Konsole oder im DescribeTrainingJob-API-Aufruf. Schließe dann die Behebung des Auftragsfehlers ab.
Interner Server-Fehler
Um sicherzustellen, dass der Fehler nicht durch ein vorübergehendes Problem verursacht wird, wiederhole den Auftrag.
Wenn der Auftrag fehlschlägt, wenn du ihn erneut versuchst, zeige die Protokolle für Trainingsjobs auf Amazon CloudWatch an. Überprüfe Auftragsmetriken wie CPUUtilization, MemoryUtilization und DiskUtilization, um zu überprüfen, ob der Fehler aufgrund einer Ressourcenbeschränkung aufgetreten ist. Du kannst die Trainingsjob-Protokolle und Auftragsmetriken auch auf der SageMaker-KI-Konsole anzeigen.
Wenn CPUUtilization oder MemoryUtilization hoch sind, verwende eine größere Größe der Trainingsjob-Instance. Wenn DiskUtilization hoch ist, erhöhe den Parameter VolumeSizeInGB, wenn du den Trainingsjob erstellst.
Fehler in der Instance-Kapazität
Wenn der Trainingsjob aufgrund eines Instance-Kapazitätsfehlers fehlschlägt, ist nicht genug On-Demand-Kapazität vorhanden, um den Auftrag abzuschließen. Weitere Informationen findest du unter Wie behebe ich einen Fehler bei unzureichender Kapazität beim Start meiner Amazon-SageMaker-KI-Ressourcen?
Gehe wie folgt vor, um den Fehler zu beheben:
- Verschiebe deine Anforderung und versuche deine Anforderung später. Kapazitätsprobleme sind vorübergehend und können behoben werden, wenn du die Anforderung erneut versuchst.
- Wechsle zu einem anderen Instance-Typ oder einer anderen Instance-Größe mit mehr Kapazität.
- Starte den Trainingsjob in einer anderen AWS-Region.
MaxRuntimeExceeded-Fehler
Die standardmäßige maximale Laufzeit für einen Trainingsjob beträgt 1 Tag. Du kannst die Laufzeit auf maximal 28 Tage anpassen. Um den maximalen Laufzeitwert zu erhöhen, übergib den Parameter MaxRuntimeInSeconds in die CreateTrainingJob-API oder den Parameter max_run in den SageMaker-KI Python SDK Estimator. Weitere Informationen findest du unter Estimators auf der Amazon SageMaker Python SDK-Website.
Ähnliche Informationen
Protokolle für integrierte Algorithmen