Amazon SageMaker的manifest文件是否支持数据集版本控制?

0

【以下的问题经过翻译处理】 一些Amazon SageMaker的算法可以使用manifest JSON 文件进行训练,比如该文件存储了图片,Amazon S3的ARN以及元数据(例如标签)之间的映射。 这是一个很好的选择,因为manifest文件比数据集本身小得多。 由于manifest文件很小,因此可以在版本控制工具中轻松使用它们或将其保存为模型artifact的一部分。 这似乎是在SageMaker中实现精确数据集版本控制的最佳构造。 但是,如果我们排除为每个训练作业创建一个唯一的训练集的做法,对于不断扩展的大型数据集,该manifest文件无法随之扩展。 我的理解准确吗?

profile picture
专家
已提问 9 个月前13 查看次数
1 回答
0

【以下的回答经过翻译处理】 如果您manifest文件指向的资产是不可变的,就可以实现与SageMaker的数据集精确版本控制。您可以在Amazon S3中拥有一个包含所有版本的数据资产,并为特定用途和版本的数据集创建manifest文件。如果不能保证manifest文件所指向资产的不可变性,那么就无法通过manifest文件来进行数据集精确版本控制。

profile picture
专家
已回答 9 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则