Glue ETL Job与Redshift的外部连接 - 过滤再提取?

0

【以下的问题经过翻译处理】 试图使用数据湖glue从redshift ETL数据集。Redshift数据集非常大,我只想在每次作业运行时提取最后x天的数据。当我设置作业时,过滤器出现在应用映射之后,选择DataFrame之前。这样做时,Redshift查询在集群上显示为实际上是“ Select *”。似乎DataFrame想要将整个Redshift表加载到Glue中,然后进行过滤,这既费时又最终失败。是否有一种在DataFrame之前过滤数据源的方法?

profile picture
エキスパート
質問済み 5ヶ月前23ビュー
1回答
0

【以下的回答经过翻译处理】 使用Databricks Redshift驱动程序。这需要在Glue中进行一些自定义编码,但在过去的工作中表现出色。我的示例代码可参考https://github.com/saunakc/etl-microservice-datalake/blob/master/src/glue/unload-table-part.py

profile picture
エキスパート
回答済み 5ヶ月前

ログインしていません。 ログイン 回答を投稿する。

優れた回答とは、質問に明確に答え、建設的なフィードバックを提供し、質問者の専門分野におけるスキルの向上を促すものです。

質問に答えるためのガイドライン