スキップしてコンテンツを表示

SageMaker AI のトレーニングジョブを実行する際に発生するエラーのトラブルシューティング方法を教えてください。

所要時間1分
0

Amazon SageMaker AI のトレーニングジョブを実行する際に発生するエラーをトラブルシューティングしたいです。

解決策

SageMaker AI のトレーニングジョブで発生したエラーを特定するには、SageMaker AI コンソール または DescribeTrainingJob API コールでエラーの原因を確認します。次に、ジョブエラーの解決手順を実行します。

内部サーバーエラー

一時的な問題がエラーの原因ではないことを確認するために、ジョブを再試行してください。

再試行してもジョブが失敗する場合は、Amazon CloudWatch でトレーニングジョブのログを確認します。CPUUtilizationMemoryUtilizationDiskUtilization などのジョブメトリクスを参照し、エラーの原因がリソースの制限であるかどうかを確認します。SageMaker AI コンソールでも、トレーニングジョブのログとジョブメトリクスを確認できます

CPUUtilization または MemoryUtilization が高くなっている場合は、トレーニングジョブのインスタンスサイズを増やします。DiskUtilization が高くなっている場合は、トレーニングジョブを作成する際に VolumeSizeInGB パラメータを増やします。

インスタンスのキャパシティに関するエラー

トレーニングジョブが失敗し、インスタンスキャパシティエラーが発生する場合、ジョブを完了するのに十分なオンデマンドキャパシティがありません。詳細については、「Amazon SageMaker AI リソースの起動時にキャパシティ不足エラーが発生した場合のトラブルシューティング方法を教えてください」を参照してください。

このエラーを解決するには、次のいずれかの操作を行います。

  • リクエストを遅らせ、後でリクエストを再試行します。キャパシティの問題は一時的なもので、リクエストを再試行すると解決する可能性があります。
  • キャパシティの大きい別のインスタンスタイプまたはサイズに切り替えます。
  • 別の AWS リージョンでトレーニングジョブを起動します。

MaxRuntimeExceeded エラー

トレーニングジョブのデフォルトの最大実行時間は 1 日です。実行時間は最大 28 日間まで調整できます。最大実行時間の値を増やすには、CreateTrainingJob API で MaxRuntimeInSeconds パラメータを渡すか、SageMaker AI Python SDK Estimator で max_run パラメータを渡します。詳細については、Amazon SageMaker Python SDK のウェブサイトで「エスティメーター」を参照してください。

関連情報

組み込みアルゴリズムのログ

コメントはありません