Glue ETL能够多快地将数据转换为Parquet格式?

0

【以下的问题经过翻译处理】 我们是否有关于glue ETL将数据转换为parquet格式的速度的基准数字?

例如, 1个DPU可以在X分钟内处理1GB原始数据。

我想要一个基准数,这样我就可以知道ETL作业是否正常运行或者有问题。

还要估计我应该为我的数据转换任务使用多少DPUs。

谢谢。

profile picture
EXPERTE
gefragt vor 5 Monaten16 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 您好,ETL的速度取决于多个因素,比如:

  1. 原始文件的大小,可以考虑讲多个小的csv文件合并成大文件再处理,减少任务开销,如果是一个1GB的文件,则Glue无法分散任务,因此不会受益。但如果是1024个1MB的文件,则可以获得好处。
  2. Parquet的设置也可能影响转换的性能,比如调大row group的大小,可以减少文件数,或者使用Snappy等其他压缩比低但快的压缩算法;
  3. 可以使用Glue的bookmark功能实现增量转换,跳过已处理的数据分区

总的来说,具体的资源配置最好通过监控Job运行指标和实际负载的压测,调整Job的worker type和number,有时候配置更多的DPU可以让ETL在更短时间内完成,从而实现成本的节省,可参考以下文档。

https://docs.aws.amazon.com/glue/latest/dg/monitor-debug-capacity.html

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen