Sagemaker 需要很长时间才能下载训练数据

0

【以下的问题经过翻译处理】 Sagemaker 下载我客户的 220 Gb 训练数据需要 54 分钟。只有 70 MB/s 的速率,出乎意料的慢。他正在通过私有 VPC 端点从他的 p3.8xlarge 实例访问 S3 中的数据,因此理论上的最大带宽为 25 Gbps。有什么办法可以加快下载速度吗?

他以以下功能开始了 Sagemaker 训练:

estimator = Estimator(
image_name, 
role=role, 
output_path=output_location, 
train_instance_count=1, 
train_instance_type='ml.p3.8xlarge', 
train_volume_size=300, 
train_max_run = 52460*60 , 
security_group_ids='sg-00f1529adc4076841'
)

输出是:

2018-10-18 23:27:15 Starting - Starting the training job... Launching requested ML instances...... Preparing the instances for training... 
2018-10-18 23:29:15 Downloading - Downloading input data............ .................................................................... .................................................................... .................................................................... 
2018-10-19 00:23:50 Training - Downloading the training image..

数据集下载耗时约 54 分钟

profile picture
专家
已提问 6 个月前15 查看次数
1 回答
0

【以下的回答经过翻译处理】 他们如何连接到 S3?他们使用 VPC 端点/NAT 吗? 如果他们使用 VPC 端点,我的建议是开一个技术支持工单,支持人员可能会查看网络日志。

客户的另一种选择是使用管道输入,管道模式建议用于大型数据集,它会缩短它们的启动时间,因为数据是在流式传输而不是下载到您的训练实例。

profile picture
专家
已回答 6 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则