AWS re:Post Knowledge Center Feedback Survey
Help us improve the AWS re:Post Knowledge Center by sharing your feedback in a brief survey. Your input can influence how we create and update our content to better support your AWS journey.
我想解决我在运行 Amazon SageMaker 人工智能训练作业时收到的错误。
要确定您的 SageMaker 人工智能训练作业的错误,请在 SageMaker 人工智能控制台或 DescribeTrainingJob API 调用中检查失败原因。然后,完成作业错误的解决方法。
要确保暂时性问题不会导致错误,请重试该作业。
如果作业在您重试时失败,则在 Amazon CloudWatch 上查看训练作业的日志。查看 CPUUtilization、MemoryUtilization 和 DiskUtilization 等作业指标,以检查故障是否由于资源限制而发生。您还可以在 SageMaker 人工智能控制台上查看训练作业日志和作业指标。
如果 CPUUtilization 或 MemoryUtilization 很高,请使用更大的训练作业实例大小。如果 DiskUtilization 很高,请在创建训练作业时增加 VolumeSizeInGB 参数。
如果训练作业因实例容量错误而失败,则没有足够的按需容量来完成作业。有关详细信息,请参阅如何解决启动 Amazon SageMaker 人工智能资源时出现的容量不足错误?
要解决此错误,请执行以下操作之一:
训练作业的默认最大运行时为 1 天。您可以将运行时调整到最多 28 天。要增加最大运行时值,请在 CreateTrainingJob API 中传递 MaxRuntimeInSeconds 参数或在 SageMaker 人工智能 Python SDK 估算器中传递 max_run 参数。有关详细信息,请参阅 Amazon SageMaker Python SDK 网站上的估算器。
内置算法的日志