我想解决运行 Amazon SageMaker 训练作业时出现的错误。
解决方案
SageMaker 训练作业可能由于多种原因而失败。要确定失败的原因,请在 SageMaker 控制台上或通过 DescribeTrainingJob API 调用查看失败原因。根据训练作业失败时出现的错误,使用以下故障排除步骤。
内部服务器错误
如果 SageMaker 训练作业因内部服务器错误而失败,请重试该作业,以确保该作业不会因为暂时性问题而失败。如果在您重试时作业失败,请在 Amazon CloudWatch 上查看训练作业的日志。在 CloudWatch 上,您可以在日志流的日志组 /aws/sagemaker/TrainingJobs 下找到这些日志,看起来类似于以下内容:
example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp
此外,请查看作业指标,例如 CPUUtilization、MemoryUtilization 和 DiskUtilization,以确保故障不是由于资源紧张而发生的。
您可以通过以下方式访问训练作业日志和作业指标:
- 打开 SageMaker 控制台。
- 选择 Training jobs(训练作业),然后选择要查看其指标的训练作业。
- 选择 TrainingJobName(训练作业名称)。
- 在 Monitor(监控)部分中,选择 View logs(查看日志)。
- 在 Monitor(监控)部分中,查看实例利用率的图表。
如果您发现该作业耗尽了所有资源,请切换到更大的实例类型,或者将更大的存储卷连接到该实例。
有关更多信息,请参阅监控训练作业指标(SageMaker 控制台)。
相关信息
使用 Amazon CloudWatch 指标监控和分析训练作业
内置算法的日志