如何为Glue job设置多个表格作为数据源

0

【以下的问题经过翻译处理】 需求是将来自RDS的多张表格进行ETL,然后将数据加载到S3和Redshift中。

例如,客户需要将来自六张表格的数据合并后加载到S3中。

我尝试设置Glue Jobs以完成这一工作,但是还不明确将表格加载到S3或Redshift的最佳实践:当创建一个Glue Job时,只能选择1个表作为数据源。

是否需要为每一个表格创建一个Glue Job,还是自定义生成的Glue Job以包括所有表格?

profile picture
전문가
질문됨 5달 전3회 조회
1개 답변
0

【以下的回答经过翻译处理】 需要自定义生成的 Glue job以包含多个表并将它们关联起来。 Glue job创建 UI 界面只是创建一个简单的模板作业,其中包含一个源和一个目标,但实际上大多数作业需要多个源,有些还需要多个目标。

可以参考以下示例: https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-samples-legislators.html

profile picture
전문가
답변함 5달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인

관련 콘텐츠