对ETL Workflow进行编排,在Step Function和Glue Workflows之间该如何选择??

0

【以下的问题经过翻译处理】 IHAC正在为他们的数据湖进行底层设计。他们希望尽可能都使用AWS原生服务。他们对AWS上的ETL编排最佳实践有疑问。他们正在查看Step函数,但自2019年6月以来,Glue Workflow已经可用,他们想知道该使用哪种或组合使用。当然,他们正在寻找简单的方式。以下是他们的主要要求:

  1. ETL编排-Step函数 vs. Glue Workflow
    1. ~150个源都会在不同的时间发送文件
    2. 源系统有并发限制,调度工具必须支持
    3. 例如,ACME源的最大并发作业为10-作业调度工具应轮询并提交作业,保持10个活动作业,但不超过10个
    4. ETL作业应基于参数化模板构建,其中他们传递诸如源、表名日期等参数,作业自动构建而不需要维护每个源/表的作业/脚本库。希望这可以动态构建
    5. ETL处理的警报
      1. 处理失败时,Cloudwatch产生警报到SNS主题,通知ETL团队
      2. 加载完毕后,Cloudwatch产生警报到SNS主题,通知业务人员
      3. 等等
    6. 支持下游jobs/etl,例如,已经完成每天的A& B文件加载后,应启动加载文件C等
profile picture
專家
已提問 6 個月前檢視次數 13 次
1 個回答
0

【以下的回答经过翻译处理】 嘿,Dave,

这似乎是使用Glue的完美用例,特别是对于不太大规模的数量和并发情况。

祝您好运! Ido

profile picture
專家
已回答 6 個月前

您尚未登入。 登入 去張貼答案。

一個好的回答可以清楚地回答問題並提供建設性的意見回饋,同時有助於提問者的專業成長。

回答問題指南