将数据从Oracle Cloud导入到S3中

0

【以下的问题经过翻译处理】 一个客户想在AWS上建立一个数据湖,其中一个数据源将是Oracle Cloud上的统一模型EDW。有哪些选项可以从EDW中提取数据并将其作为文本扁平文件(CSV)加载到S3中? Glue能胜任这项工作吗?

非常感谢。

profile picture
专家
已提问 5 个月前22 查看次数
1 回答
0

【以下的回答经过翻译处理】 假设 Oracle 将留在 Oracle Cloud 中,这将是一个持续的提取过程,您可以使用具有 JDBC 连接的 Glue ETL 或以 Oracle 作为源、S3 作为目标的 DMS 作为复制用例。 我的客户正在做后者。

您需要向客户进一步澄清的部分是,他们是否希望下载正在进行的 CDC(变更数据捕获)数据(很可能是这种情况),在这种情况下,S3 是目标,CDC 合并流程是什么 看起来会让 Oracle 和 S3 保持同步,并且 S3 拥有 Oracle 的当前快照。 基本上,一旦数据进入 S3,我就会了解有关消费模式的更多信息。 我问的原因是,您可以使用开箱即用的 DMS 来执行 CDC,但是,DMS 将为每个 CDC 运行在 S3 中创建单独的文件,然后某些 ETL 流程需要合并 CDC 文件以保留当前快照的黄金副本 在S3上。 其他选项是每次使用 Glue ETL 或 DMS 进行全表下载,但这必须长期关注有多少表和多少数据,因为每次在 S3 上下载全量可能是一个挑战,否则会因为 SLA 等

使用带有 JDBC 连接的 Glue ETL 实际上是一项 Spark 作业,在我看来,如果您想要执行以下操作,那么它更适合

(1) 合并来自Oracle的CDC数据以在S3上创建当前快照副本

(2) 在将数据从 Oracle 传输到 S3 后或在数据传输过程中您想要对数据进行的任何其他转换

话虽如此,您确实需要手动编写 CDC 查询,以从 Oracle 中提取增量以进行持续运行,并且还需要对 CDC 合并过程进行编码。

希望可以帮助到你!

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则