跳至內容

如何對執行 SageMaker AI 訓練任務時收到的錯誤進行疑難排解?

1 分的閱讀內容
0

我想對執行 Amazon SageMaker AI 訓練任務時收到的錯誤進行疑難排解。

解決方法

若要辨識 SageMaker AI 訓練任務的錯誤,請在 SageMaker AI 主控台DescribeTrainingJob API 呼叫中檢查失敗原因。然後,完成任務錯誤的解決方案。

內部伺服器錯誤

若要確定錯誤不是由暫時性問題引起的,請重試任務。

如果您重試後任務失敗,請在 Amazon CloudWatch 上檢視訓練任務的日誌。檢查任務指標 (例如 CPUUtilizationMemoryUtilizationDiskUtilization),以確認任務是否因資源限制而失敗。您也可以在 SageMaker AI 主控台上檢視訓練任務日誌和任務指標

如果 CPUUtilizationMemoryUtilization 較高,請使用較大的訓練任務執行個體大小。如果 DiskUtilization 較高,請在建立訓練任務時增加 VolumeSizeInGB 參數。

執行個體容量錯誤

如果訓練任務因執行個體容量錯誤而失敗,則表示沒有足夠的隨需容量來完成該任務。如需詳細資訊,請參閱如何對啟動 Amazon SageMaker AI 資源時出現的容量不足錯誤進行疑難排解?

若要解決該錯誤,請執行下列其中一個動作:

  • 延遲您的請求,稍後再重新嘗試。容量問題通常是暫時性的,當您重新嘗試請求時可能會解決。
  • 切換到具有更大容量的其他執行個體類型或大小。
  • 在不同的 AWS 區域啟動訓練任務。

MaxRuntimeExceeded 錯誤

訓練任務的預設最長執行時間為 1 天。您可以將執行時期調整為最長 28 天。若要增加最大執行時間值,請傳遞 CreateTrainingJob API 中的 MaxRuntimeInSeconds 參數,或 SageMaker AI Python SDK Estimator 中的 max_run 參數。如需詳細資訊,請參閱 Amazon SageMaker Python SDK 網站上的估算器

相關資訊

內建演算法的日誌