1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 我能想到以下几种情况
管道模式缺点
** 更新**
- 数据Shuffle - 在管道模式下,你使用流式数据,因此除非你准备在Batch内Shuffle(即等待读取一批记录并在Batch内部增加shuffle逻辑),否则无法执行数据shuffle操作。如果你的数据分布在多个文件中,可以使用Sagemaker data shuffle来执行文件级shuffle。
- 数据读取器 - 管道模式下有默认的数据读取器,适用于Tensorflow的格式,如csv、tfrecord等。但如果你有自定义的数据格式或使用不同的深度学习框架,你需要使用自定义的数据读取器来处理原始二进制数据并理解记录的逻辑结尾。你可以使用ml-io来查看任何内置的管道模式读取器是否适合你的用例。
- 管道模式从S3中为每个Epoch流式传输数据,因此在运行少量epoch时速度会比FSX慢。
FSX:
- FSX通过懒加载方式读取s3文件,因此会有启动延迟,但在重复训练期间会变得更快。
- 不依赖框架,你的现有代码将照常工作。
- 使用FSX唯一的缺点是额外的存储成本,但在大多数情况下,我更喜欢FSX而不是管道模式。
相关内容
- AWS 官方已更新 2 年前
- AWS 官方已更新 2 年前
- AWS 官方已更新 9 个月前
- AWS 官方已更新 2 年前