Sagemaker 需要很长时间才能下载训练数据

0

【以下的问题经过翻译处理】 Sagemaker 下载我客户的 220 Gb 训练数据需要 54 分钟。只有 70 MB/s 的速率,出乎意料的慢。他正在通过私有 VPC 端点从他的 p3.8xlarge 实例访问 S3 中的数据,因此理论上的最大带宽为 25 Gbps。有什么办法可以加快下载速度吗?

他以以下功能开始了 Sagemaker 训练:

estimator = Estimator(
image_name, 
role=role, 
output_path=output_location, 
train_instance_count=1, 
train_instance_type='ml.p3.8xlarge', 
train_volume_size=300, 
train_max_run = 52460*60 , 
security_group_ids='sg-00f1529adc4076841'
)

输出是:

2018-10-18 23:27:15 Starting - Starting the training job... Launching requested ML instances...... Preparing the instances for training... 
2018-10-18 23:29:15 Downloading - Downloading input data............ .................................................................... .................................................................... .................................................................... 
2018-10-19 00:23:50 Training - Downloading the training image..

数据集下载耗时约 54 分钟

profile picture
EXPERTE
gefragt vor 8 Monaten31 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 他们如何连接到 S3?他们使用 VPC 端点/NAT 吗? 如果他们使用 VPC 端点,我的建议是开一个技术支持工单,支持人员可能会查看网络日志。

客户的另一种选择是使用管道输入,管道模式建议用于大型数据集,它会缩短它们的启动时间,因为数据是在流式传输而不是下载到您的训练实例。

profile picture
EXPERTE
beantwortet vor 8 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen