如何加速在同一地区的S3存储桶之间的文件复制(文件大小4TB)

0

【以下的问题经过翻译处理】 一个客户有一个包含1220万个文件、总共4TB大小数据的S3存储桶。存储桶中的大多数文件都不到几MB大小,全部文件都在同一个文件夹中。他们需要将这些文件从一个存储桶移动到另一个存储桶。他们说上一次尝试需要花费数天时间才能完成传输。他们正在寻找减少复制时间的方法。

一种建议是进行批处理并在传输前对文件进行压缩(使用tar、zip等)。在这种情况下,应该将文件压缩至多大比较合适?

此外,还有其他的解决方案可以减少在同一地区传输数据的时间吗?

profile picture
专家
已提问 5 个月前11 查看次数
1 回答
0

【以下的回答经过翻译处理】 推荐使用S3DistCp,您可以将大量数据高效地从Amazon S3复制到HDFS,然后在您的Amazon EMR集群中通过后续步骤对数据进行处理。您还可以使用S3DistCp在Amazon S3存储桶之间或从HDFS到Amazon S3复制数据。S3DistCp对于在桶之间和AWS帐户之间并行复制大量对象更具可扩展性和效率。

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则