Glue ETL Job与Redshift的外部连接 - 过滤再提取?

0

【以下的问题经过翻译处理】 试图使用数据湖glue从redshift ETL数据集。Redshift数据集非常大,我只想在每次作业运行时提取最后x天的数据。当我设置作业时,过滤器出现在应用映射之后,选择DataFrame之前。这样做时,Redshift查询在集群上显示为实际上是“ Select *”。似乎DataFrame想要将整个Redshift表加载到Glue中,然后进行过滤,这既费时又最终失败。是否有一种在DataFrame之前过滤数据源的方法?

profile picture
專家
已提問 5 個月前檢視次數 23 次
1 個回答
0

【以下的回答经过翻译处理】 使用Databricks Redshift驱动程序。这需要在Glue中进行一些自定义编码,但在过去的工作中表现出色。我的示例代码可参考https://github.com/saunakc/etl-microservice-datalake/blob/master/src/glue/unload-table-part.py

profile picture
專家
已回答 5 個月前

您尚未登入。 登入 去張貼答案。

一個好的回答可以清楚地回答問題並提供建設性的意見回饋,同時有助於提問者的專業成長。

回答問題指南