我想疑難排解執行 Amazon SageMaker 訓練任務時的錯誤。
解決方案
您的 SageMaker 訓練任務可能會因為多種原因而失敗。若要識別失敗的原因,請在 SageMaker 主控台上或透過 DescribeTrainingJob API 呼叫檢查失敗原因。根據訓練任務失敗時您收到的錯誤,使用以下疑難排解步驟。
內部伺服器錯誤
如果您的 SageMaker 訓練任務因為內部伺服器錯誤而失敗,請重試該任務,以確保任務不會因為暫時性問題而失敗。如果重試時任務失敗,請在 Amazon CloudWatch 上檢閱訓練任務的日誌。在 CloudWatch 中,您可以在日誌串流中的 /aws/sagemaker/TrainingJobs 日誌群組下找到這些日誌,看起來類似下列內容:
example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp
此外,請檢閱任務指標,例如 CPUUtilization、MemoryUtilization、DiskUtilization,以確保失敗不是因為資源緊縮而發生。
您可以執行以下操作來存取訓練任務日誌與任務指標:
- 開啟 SageMaker 主控台。
- 選擇 Training jobs (訓練任務),然後選擇您欲檢視其指標的訓練任務。
- 選擇 TrainingJobName (訓練任務名稱)。
- 在 Monitor (監控) 區段中,選擇 View logs (檢視日誌)。
- 在 Monitor (監控) 區段中,檢閱執行個體使用率的圖表。
如果您發現任務耗盡了所有資源,請切換為較大的執行個體類型,或將較大的儲存磁碟區附加到執行個體。
如需詳細資訊,請參閱監控訓練任務指標 (SageMaker 主控台)。
相關資訊
使用 Amazon CloudWatch 指標監控與分析訓練任務
內建演算法的日誌