大数据文件上的 Glue Job

0

【以下的问题经过翻译处理】 我有一个需求,需要创建ETL从100个数据文件(每个文件都有独特的模式)转换成一个公共格式的CSV文件。源文件在S3存储桶文件夹中(每个文件夹都是唯一的数据集)。有时需要在一个文件夹中联合多个文件,并在转换中编写业务逻辑。这些文件有数百万条记录。

我已经尝试使用Glue Cralwer和Glue jobs使用有限数据创建目标文件。 我的问题是,Glue在数百万条记录上的性能如何,它是否具有成本效益?您能否分享有关此问题的信息?另外,我计划从Step Functions编排每个Glue Crawler和Glue Job。这样做的方法正确吗?谢谢。

profile picture
EXPERTE
gefragt vor 5 Monaten64 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 AWS Glue的主要重点是解决你描述的问题,还有处理更大的数据集。

显然,如果你没有之前使用Apache Spark(Glue ETL基于它)的经验,根据你的连接和转换逻辑的复杂程度,你可能会遇到挑战。因此,值得投入一些时间来了解其工作原理以及如何监控。

成本效益取决于你的逻辑有多么高效以及你如何调整配置。Glue 4.0提供了许多改进和开箱即用的优化,应该能帮助你解决这个问题。

Glue Crawlers是可选的方便功能,如果你只需要读取一次csv文件(如果不是需要为其他目的使用的表),你可以直接读取它们。

Step Function 需要一些学习,但可以构建高级工作流,对于简单的工作流,Glue提供了触发器和Glue内部的可视化工作流。s

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen