数据摄取应该使用DMS还是Glue?

0

【以下的问题经过翻译处理】 客户正在AWS上建立一种物联网 — 大数据分析平台。 根据他们的设计,阶段1中,他们有一个本地SQL Server DW,将以近实时的方式发送数据到AWS。 一旦数据进入AWS,就会进行处理、分析和可视化等操作。

客户的问题如下:

  1. 将这些数据以近实时的方式发送到AWS的最佳方法是什么:
  • 使用DMS(CDC)并将数据存储在staging bucket?然后,使用Glue catalog并进行ETL操作... 或者
  • 直接使用Crawler,并由Glue消费并进行ETL操作? 请注意,客户目前没有Direct Connect,而是使用VPN。
  1. 使用CDC还是Triggers更好,为什么?(我知道这是一个数据库 / 应用程序方面的问题,但他们想知道我们的意见。
  2. 在使用Glue(ETL / crawler / jobs等)时客户使用的最佳实践有哪些?(欢迎提供文档链接!)
1 Antwort
0

【以下的回答经过翻译处理】 Glue不支持真正的CDC,但可以使用Glue bookmarks从数据库表中带入新的行。请参见: https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

因此,如果源数据库表中有更新或删除的行,并且您需要在S3数据湖中捕获这些行,则只有使用DMS才是可选项。

profile picture
EXPERTE
beantwortet vor 6 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen