Amazon SageMaker AI のトレーニングジョブを実行する際に発生するエラーをトラブルシューティングしたいです。
SageMaker AI のトレーニングジョブで発生したエラーを特定するには、SageMaker AI コンソール または DescribeTrainingJob API コールでエラーの原因を確認します。次に、ジョブエラーの解決手順を実行します。
一時的な問題がエラーの原因ではないことを確認するために、ジョブを再試行してください。
再試行してもジョブが失敗する場合は、Amazon CloudWatch でトレーニングジョブのログを確認します。CPUUtilization、MemoryUtilization、DiskUtilization などのジョブメトリクスを参照し、エラーの原因がリソースの制限であるかどうかを確認します。SageMaker AI コンソールでも、トレーニングジョブのログとジョブメトリクスを確認できます。
CPUUtilization または MemoryUtilization が高くなっている場合は、トレーニングジョブのインスタンスサイズを増やします。DiskUtilization が高くなっている場合は、トレーニングジョブを作成する際に VolumeSizeInGB パラメータを増やします。
トレーニングジョブが失敗し、インスタンスキャパシティエラーが発生する場合、ジョブを完了するのに十分なオンデマンドキャパシティがありません。詳細については、「Amazon SageMaker AI リソースの起動時にキャパシティ不足エラーが発生した場合のトラブルシューティング方法を教えてください」を参照してください。
このエラーを解決するには、次のいずれかの操作を行います。
トレーニングジョブのデフォルトの最大実行時間は 1 日です。実行時間は最大 28 日間まで調整できます。最大実行時間の値を増やすには、CreateTrainingJob API で MaxRuntimeInSeconds パラメータを渡すか、SageMaker AI Python SDK Estimator で max_run パラメータを渡します。詳細については、Amazon SageMaker Python SDK のウェブサイトで「エスティメーター」を参照してください。
組み込みアルゴリズムのログ