Glue ETL作业将part-r-00文件写入与我的输入相同的存储桶中。有没有办法改变这个?

0

【以下的问题经过翻译处理】 我从S3存储桶中读取文件,将其转换为Spark DataFrame,进行转换后又将其转换回Dyanmic DataFrame,然后写入Data Catalog。这会在与输入文件相同的存储桶中创建一堆part-r-00文件,因此我的脚本尝试读取和处理这些文件!它必须创建这些文件吗?是否可以为这些文件设置不同的存储桶?如果不能,是否可以让我的ETL只读取以.csv结尾的文件?

profile picture
EXPERTE
gefragt vor 5 Monaten17 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 我想明白了。当 Glue Data Catalog 需要我的 "Data Store "文件夹(这是它存储 part-r 文件的地方)时,我输入了与 S3 源文件相同的文件夹。只需将其更改为一个新的空文件夹,问题就解决了。

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen