Amazon SageMaker トレーニングジョブを実行する際のエラーをトラブルシューティングしたいと考えています。
解決方法
SageMaker のトレーニングジョブは、複数の理由で失敗する可能性があります。失敗の理由を特定するには、SageMaker コンソールで、または DescribeTrainingJob API コールを通じて、失敗の理由を確認します。トレーニングジョブが失敗したときに発生するエラーに基づいて、次のトラブルシューティングのステップを使用します。
内部サーバーエラー
SageMaker トレーニングジョブが内部サーバーエラーで失敗した場合は、ジョブを再試行して、一時的な問題が原因でジョブが失敗したわけではないことを確認します。再試行してもジョブが失敗する場合は、Amazon CloudWatch でトレーニングジョブのログを確認します。これらのログは、CloudWatch の次のようなログストリームのロググループ /aws/sagemaker/TrainingJobs にあります。
example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp
また、CPUUtilization、MemoryUtilization、DiskUtilization などのジョブメトリクスで、リソース不足が原因で失敗したわけではないことを確認します。
次の操作を実行すると、トレーニングジョブのログとジョブメトリクスにアクセスできます。
- SageMaker コンソールを開きます。
- [Training jobs] (トレーニングジョブ) を選択し、メトリクスを確認したいトレーニングジョブを選択します。
- [TrainingJobName] を選択します。
- [Monitor] (モニタリング) セクションで、[View logs] (ログを表示) を選択します。
- [Monitor] (モニタリング) セクションで、インスタンスの使用状況のグラフを確認します。
ジョブがすべてのリソースを使い果たしていることがわかった場合は、より大きなインスタンスタイプに切り替えるか、より大きなストレージボリュームをインスタンスにアタッチします。
詳細については、「トレーニングジョブメトリクスのモニタリング (SageMaker コンソール)」を参照してください。
関連情報
Monitor and analyze training jobs using Amazon CloudWatch metrics (Amazon CloudWatch メトリクスを使用してトレーニングジョブをモニタリングおよび分析する)
Logs for built-in algorithms (組み込みアルゴリズムのログ)