数据摄取应该使用DMS还是Glue?

0

【以下的问题经过翻译处理】 客户正在AWS上建立一种物联网 — 大数据分析平台。 根据他们的设计,阶段1中,他们有一个本地SQL Server DW,将以近实时的方式发送数据到AWS。 一旦数据进入AWS,就会进行处理、分析和可视化等操作。

客户的问题如下:

  1. 将这些数据以近实时的方式发送到AWS的最佳方法是什么:
  • 使用DMS(CDC)并将数据存储在staging bucket?然后,使用Glue catalog并进行ETL操作... 或者
  • 直接使用Crawler,并由Glue消费并进行ETL操作? 请注意,客户目前没有Direct Connect,而是使用VPN。
  1. 使用CDC还是Triggers更好,为什么?(我知道这是一个数据库 / 应用程序方面的问题,但他们想知道我们的意见。
  2. 在使用Glue(ETL / crawler / jobs等)时客户使用的最佳实践有哪些?(欢迎提供文档链接!)
profile picture
专家
已提问 5 个月前11 查看次数
1 回答
0

【以下的回答经过翻译处理】 Glue不支持真正的CDC,但可以使用Glue bookmarks从数据库表中带入新的行。请参见: https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

因此,如果源数据库表中有更新或删除的行,并且您需要在S3数据湖中捕获这些行,则只有使用DMS才是可选项。

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则