Redshift 数据仓库和 Glue ETL 设计建议

0

【以下的问题经过翻译处理】 AWS合作伙伴正在为一个注重安全的客户设计一个数据仓库系统。该合作伙伴有以下与设计Redshift数据仓库和相关ETL管道相关的问题。我想请您帮忙确认以下问题的理解:

  1. 总体上,从源系统到Amazon Redshift进行增量加载/CDC的推荐方法是什么?
  2. 建议使用AWS Glue将数据从Amazon Redshift(热数据)导出到Amazon S3(冷数据)吗?
  3. 何时需要更新AWS Glue数据目录?只有当源表定义更改时吗?还有其他情况吗?
  4. 有安排/工作流机制来定义加载依赖项到Amazon Redshift吗?
  5. Amazon Redshift中是否有机制允许在数据加载失败时进行重试?例如,维度数据需要在事实数据表加载开始之前完全加载?AWS Glue工作流也是这里推荐的工具吗?
  6. 是否可以使用Tableau同时查询Amazon Redshift和Amazon Redshift Spectrum中的数据?
  7. 是否有推荐的共享资源,例如最佳实践和在AWS中设计数据仓库的方法?
profile picture
EXPERTE
gefragt vor 5 Monaten19 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 1. 常规情况下,从源系统到AWS Redshift的增量加载/CDC建议采用什么方法? 答:这取决于源系统的类型。对于关系型数据库,DMS可以持续复制变更数据。对于S3上的文件,Glue作业具有存储最近加载数据的标记的Bookmark功能,例如时间戳或主键值。

  1. 是否建议使用AWS Glue将数据从Redshift(热数据)导出到S3(冷数据)? 答:从Redshift到S3导出数据有两种主要方法。使用UNLOAD命令,或使用Spectrum外部表将数据插入S3。

  2. 何时需要对Glue数据目录运行更新?仅当源表定义发生更改时吗?还有其他情况吗? 答:当表的结构发生更改时,例如添加/删除列,以及添加了分区时,可以运行Glue Crawlers以更新Glue Data Catalog中的元数据。还可以使用Glue API进行此目的,并且不会产生Crawler成本。

  3. 是否有一个调度/工作流机制来定义将数据加载到Redshift的依赖关系? 答:这可以通过多种方式完成。可以使用Step Functions和Glue Workflows。此外,Redshift现在具有内置计划程序。

  4. 是否有一种机制可以在数据加载失败时允许重试?例如,维度数据需要在事实数据表加载开始之前完全加载?在这里,AWS Glue工作流程是否建议工具? 答:可以使用编排工具来完成此目的,例如Step Functions或Glue Workflows。如果使用存储过程构建数据转换,则可以使用一个集中的加载过程来编排单个加载过程(用于维度或事实)。

  5. 可以同时从Redshift和Redshift Spectrum查询数据使用Tableau吗? 答:是的。

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen