如何为Glue job设置多个表格作为数据源

0

【以下的问题经过翻译处理】 需求是将来自RDS的多张表格进行ETL,然后将数据加载到S3和Redshift中。

例如,客户需要将来自六张表格的数据合并后加载到S3中。

我尝试设置Glue Jobs以完成这一工作,但是还不明确将表格加载到S3或Redshift的最佳实践:当创建一个Glue Job时,只能选择1个表作为数据源。

是否需要为每一个表格创建一个Glue Job,还是自定义生成的Glue Job以包括所有表格?

profile picture
EXPERTE
gefragt vor 5 Monaten3 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 需要自定义生成的 Glue job以包含多个表并将它们关联起来。 Glue job创建 UI 界面只是创建一个简单的模板作业,其中包含一个源和一个目标,但实际上大多数作业需要多个源,有些还需要多个目标。

可以参考以下示例: https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-samples-legislators.html

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen