将数据从Oracle Cloud导入到S3中

0

【以下的问题经过翻译处理】 一个客户想在AWS上建立一个数据湖,其中一个数据源将是Oracle Cloud上的统一模型EDW。有哪些选项可以从EDW中提取数据并将其作为文本扁平文件(CSV)加载到S3中? Glue能胜任这项工作吗?

非常感谢。

profile picture
EXPERTE
gefragt vor 5 Monaten26 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 假设 Oracle 将留在 Oracle Cloud 中,这将是一个持续的提取过程,您可以使用具有 JDBC 连接的 Glue ETL 或以 Oracle 作为源、S3 作为目标的 DMS 作为复制用例。 我的客户正在做后者。

您需要向客户进一步澄清的部分是,他们是否希望下载正在进行的 CDC(变更数据捕获)数据(很可能是这种情况),在这种情况下,S3 是目标,CDC 合并流程是什么 看起来会让 Oracle 和 S3 保持同步,并且 S3 拥有 Oracle 的当前快照。 基本上,一旦数据进入 S3,我就会了解有关消费模式的更多信息。 我问的原因是,您可以使用开箱即用的 DMS 来执行 CDC,但是,DMS 将为每个 CDC 运行在 S3 中创建单独的文件,然后某些 ETL 流程需要合并 CDC 文件以保留当前快照的黄金副本 在S3上。 其他选项是每次使用 Glue ETL 或 DMS 进行全表下载,但这必须长期关注有多少表和多少数据,因为每次在 S3 上下载全量可能是一个挑战,否则会因为 SLA 等

使用带有 JDBC 连接的 Glue ETL 实际上是一项 Spark 作业,在我看来,如果您想要执行以下操作,那么它更适合

(1) 合并来自Oracle的CDC数据以在S3上创建当前快照副本

(2) 在将数据从 Oracle 传输到 S3 后或在数据传输过程中您想要对数据进行的任何其他转换

话虽如此,您确实需要手动编写 CDC 查询,以从 Oracle 中提取增量以进行持续运行,并且还需要对 CDC 合并过程进行编码。

希望可以帮助到你!

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen