对ETL Workflow进行编排,在Step Function和Glue Workflows之间该如何选择??

0

【以下的问题经过翻译处理】 IHAC正在为他们的数据湖进行底层设计。他们希望尽可能都使用AWS原生服务。他们对AWS上的ETL编排最佳实践有疑问。他们正在查看Step函数,但自2019年6月以来,Glue Workflow已经可用,他们想知道该使用哪种或组合使用。当然,他们正在寻找简单的方式。以下是他们的主要要求:

  1. ETL编排-Step函数 vs. Glue Workflow
    1. ~150个源都会在不同的时间发送文件
    2. 源系统有并发限制,调度工具必须支持
    3. 例如,ACME源的最大并发作业为10-作业调度工具应轮询并提交作业,保持10个活动作业,但不超过10个
    4. ETL作业应基于参数化模板构建,其中他们传递诸如源、表名日期等参数,作业自动构建而不需要维护每个源/表的作业/脚本库。希望这可以动态构建
    5. ETL处理的警报
      1. 处理失败时,Cloudwatch产生警报到SNS主题,通知ETL团队
      2. 加载完毕后,Cloudwatch产生警报到SNS主题,通知业务人员
      3. 等等
    6. 支持下游jobs/etl,例如,已经完成每天的A& B文件加载后,应启动加载文件C等
profile picture
专家
已提问 5 个月前11 查看次数
1 回答
0

【以下的回答经过翻译处理】 嘿,Dave,

这似乎是使用Glue的完美用例,特别是对于不太大规模的数量和并发情况。

祝您好运! Ido

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则