Glue ETL Job与Redshift的外部连接 - 过滤再提取?

0

【以下的问题经过翻译处理】 试图使用数据湖glue从redshift ETL数据集。Redshift数据集非常大,我只想在每次作业运行时提取最后x天的数据。当我设置作业时,过滤器出现在应用映射之后,选择DataFrame之前。这样做时,Redshift查询在集群上显示为实际上是“ Select *”。似乎DataFrame想要将整个Redshift表加载到Glue中,然后进行过滤,这既费时又最终失败。是否有一种在DataFrame之前过滤数据源的方法?

profile picture
EXPERTE
gefragt vor 5 Monaten23 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 使用Databricks Redshift驱动程序。这需要在Glue中进行一些自定义编码,但在过去的工作中表现出色。我的示例代码可参考https://github.com/saunakc/etl-microservice-datalake/blob/master/src/glue/unload-table-part.py

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen