如何评估处理速度:EBS与S3的对比

0

【以下的问题经过翻译处理】 如何在EC2实例中使用S3而不是EBS读取数据的最佳解决方案是什么? 我正在使用一个EC2实例来读取存储在EBS中的数据(大约2 TB大小),并使用ETL和分析作业执行许多转换。但作为严格的三层架构的一部分,需要将这些数据从EBS(应用层)移到数据层(最好是S3)。 我的理解是,如果我将所有这些数据永久地从EBS移动到S3,并每天从S3读取2TB数据进行我的工作,那么作业的性能将非常低。

  1. 你能否建议如何实现更好的方法?
  2. 除了S3,我能使用其他服务吗?
  3. 系统是Linux系统,因此我无法使用Fsx。
  4. 我需要我的工作具有极快的性能。任何在这方面的帮助将不胜感激。
1 Antwort
0

【以下的回答经过翻译处理】 AWS有多种选项可以用于这种工作负载。如果没有所有生产者/消费者和其他要求的详细信息,就很难指定解决方案。我会尝试为您提供一些关于一些选项的指引。

S3很适合作为数据湖。您将保留用于处理的原始数据。通常,ETL将启动,从S3下载数据,处理后保存在另一个数据存储中。

这个第二个数据存储将是数据仓库(DW),在那里您有一些已处理的数据和一些商业价值。从那里运行分析作业应该更容易,因为DW解决方案通常针对这种事情进行了优化(例如Redshift)。

至于速度,这取决于一堆因素。

*您的数据是否分散在多个文件中,可以并行处理它们? *您是否可以优化代码? *是否达到了CPU/内存/IO限制? *下载时间(从S3)是否可接受?

很抱歉没有更具指导性的答案,但希望这可以帮助您一些。

profile picture
EXPERTE
beantwortet vor 8 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen