如何验证 SageMaker Spot 训练中的检查点是否有效?

0

【以下的问题经过翻译处理】 您好,

在启动 SageMaker Spot Training 作业之前,我们如何知道 checkpoint 是否有效?有没有办法可以强制定期将 checkpoint 保存到 s3,而不是等待 SIGTERM 信号?

谢谢

profile picture
EXPERTE
gefragt vor 8 Monaten36 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 Olivier 您好,

如果启用 SageMaker 检查点,它会定期将训练产物的副本保存到 S3 中。我在 pytorch 中使用过这个功能,它通过定期检查点来工作,Managed Spot Training: Save Up to 90% On Your Amazon SageMaker Training Jobs 博客也提到了同样的方法。

为了避免在训练作业中断时需要从头开始,我们强烈建议您启用检查点,定期保存正在训练中的模型。

profile picture
EXPERTE
beantwortet vor 8 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen