S3批量文件出发Glue作业

0

【以下的问题经过翻译处理】 我有一个AWS Glue作业,可以从S3读取20个CSV文件并将它们注入到MySQL RDS中。 这20个文件都在S3上,但它们不会在相同的时间到达。我应该如何配置Glue作业/事件规则,使得只有当所有20个文件都被上传到S3上时,自动触发Glue作业?谢谢。

1 Antwort
0

【以下的回答经过翻译处理】 可以在Glue中使用事件驱动的工作流程,在EventBridge中触发S3事件,请在this blog post中阅读详细信息。

触发器有一个批处理大小,您可以指定在多少个事件之后启动作业。

您还可以在文档的此部分中找到其他细节。

工作流中的触发器可以启动任务和爬网程序,也可以由任务或爬网程序触发。有三种类型的启动触发器:

*调度-根据您定义的时间表开始工作流。时间表可以是每天,每周,每月等,也可以基于cron表达式的自定义时间表。

*按需-从AWS Glue控制台,API或AWS CLI手动启动工作流。

  • EventBridge事件-当发生单个Amazon EventBridge事件或批次Amazon EventBridge事件时启动工作流。使用此触发器类型,AWS Glue可以在事件驱动的架构中成为事件消费者。任何EventBridge事件类型都可以启动工作流。常见用例是在Amazon S3桶中到达新对象(S3 PutObject操作)时。

希望这能有所帮助。

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen