Glue ETL能够多快地将数据转换为Parquet格式?

0

【以下的问题经过翻译处理】 我们是否有关于glue ETL将数据转换为parquet格式的速度的基准数字?

例如, 1个DPU可以在X分钟内处理1GB原始数据。

我想要一个基准数,这样我就可以知道ETL作业是否正常运行或者有问题。

还要估计我应该为我的数据转换任务使用多少DPUs。

谢谢。

profile picture
전문가
질문됨 5달 전16회 조회
1개 답변
0

【以下的回答经过翻译处理】 您好,ETL的速度取决于多个因素,比如:

  1. 原始文件的大小,可以考虑讲多个小的csv文件合并成大文件再处理,减少任务开销,如果是一个1GB的文件,则Glue无法分散任务,因此不会受益。但如果是1024个1MB的文件,则可以获得好处。
  2. Parquet的设置也可能影响转换的性能,比如调大row group的大小,可以减少文件数,或者使用Snappy等其他压缩比低但快的压缩算法;
  3. 可以使用Glue的bookmark功能实现增量转换,跳过已处理的数据分区

总的来说,具体的资源配置最好通过监控Job运行指标和实际负载的压测,调整Job的worker type和number,有时候配置更多的DPU可以让ETL在更短时间内完成,从而实现成本的节省,可参考以下文档。

https://docs.aws.amazon.com/glue/latest/dg/monitor-debug-capacity.html

profile picture
전문가
답변함 5달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인