SageMaker指标持久化

0

【以下的问题经过翻译处理】 关于Sagemaker训练任务中机器学习指标持久化的一些问题。虽然SageMaker regexp-over-CloudWatch是一个有吸引力的选项,但是Cloudwatch中指标的保留似乎被限制在15天内。 1.如何使这些指标的持久化时间更长?定期将它们从Cloudwatch中提取出来并将其持久化在其他地方,例如S3或RDS,是常见的做法吗?如何进行指标的长期持久化? 2. SageMaker Experiments是否允许在更长时间内收集类似的数据(客户定义的训练指标)?

profile picture
专家
已提问 8 个月前11 查看次数
1 回答
0

【以下的回答经过翻译处理】 1. 您现在可以通过AWS SDK或在SageMaker Python SDK中设置“enable_sagemaker_metrics = true”,从而将SageMaker训练作业的算法指标(您可以通过正则表达式收集的指标或默认情况下使用内置算法的指标)持久化,这些指标可以在Amazon SageMaker Studio中长期保留,并且可以通过“Metrics” -> “Add Chart”(从训练作业的详细页面)访问。这些指标不需要额外费用。 2. 是的,SageMaker Experiments允许收集类似的数据。请注意,系统指标(CPU/GPU/内存/磁盘)仍然仅可通过CloudWatch获得。

profile picture
专家
已回答 8 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则