如何评估处理速度:EBS与S3的对比

0

【以下的问题经过翻译处理】 如何在EC2实例中使用S3而不是EBS读取数据的最佳解决方案是什么? 我正在使用一个EC2实例来读取存储在EBS中的数据(大约2 TB大小),并使用ETL和分析作业执行许多转换。但作为严格的三层架构的一部分,需要将这些数据从EBS(应用层)移到数据层(最好是S3)。 我的理解是,如果我将所有这些数据永久地从EBS移动到S3,并每天从S3读取2TB数据进行我的工作,那么作业的性能将非常低。

  1. 你能否建议如何实现更好的方法?
  2. 除了S3,我能使用其他服务吗?
  3. 系统是Linux系统,因此我无法使用Fsx。
  4. 我需要我的工作具有极快的性能。任何在这方面的帮助将不胜感激。
1 回答
0

【以下的回答经过翻译处理】 AWS有多种选项可以用于这种工作负载。如果没有所有生产者/消费者和其他要求的详细信息,就很难指定解决方案。我会尝试为您提供一些关于一些选项的指引。

S3很适合作为数据湖。您将保留用于处理的原始数据。通常,ETL将启动,从S3下载数据,处理后保存在另一个数据存储中。

这个第二个数据存储将是数据仓库(DW),在那里您有一些已处理的数据和一些商业价值。从那里运行分析作业应该更容易,因为DW解决方案通常针对这种事情进行了优化(例如Redshift)。

至于速度,这取决于一堆因素。

*您的数据是否分散在多个文件中,可以并行处理它们? *您是否可以优化代码? *是否达到了CPU/内存/IO限制? *下载时间(从S3)是否可接受?

很抱歉没有更具指导性的答案,但希望这可以帮助您一些。

profile picture
专家
已回答 8 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则