如何验证 SageMaker Spot 训练中的检查点是否有效?

0

【以下的问题经过翻译处理】 您好,

在启动 SageMaker Spot Training 作业之前,我们如何知道 checkpoint 是否有效?有没有办法可以强制定期将 checkpoint 保存到 s3,而不是等待 SIGTERM 信号?

谢谢

profile picture
專家
已提問 8 個月前檢視次數 36 次
1 個回答
0

【以下的回答经过翻译处理】 Olivier 您好,

如果启用 SageMaker 检查点,它会定期将训练产物的副本保存到 S3 中。我在 pytorch 中使用过这个功能,它通过定期检查点来工作,Managed Spot Training: Save Up to 90% On Your Amazon SageMaker Training Jobs 博客也提到了同样的方法。

为了避免在训练作业中断时需要从头开始,我们强烈建议您启用检查点,定期保存正在训练中的模型。

profile picture
專家
已回答 8 個月前

您尚未登入。 登入 去張貼答案。

一個好的回答可以清楚地回答問題並提供建設性的意見回饋,同時有助於提問者的專業成長。

回答問題指南