Glue ETL作业将part-r-00文件写入与我的输入相同的存储桶中。有没有办法改变这个?

0

【以下的问题经过翻译处理】 我从S3存储桶中读取文件,将其转换为Spark DataFrame,进行转换后又将其转换回Dyanmic DataFrame,然后写入Data Catalog。这会在与输入文件相同的存储桶中创建一堆part-r-00文件,因此我的脚本尝试读取和处理这些文件!它必须创建这些文件吗?是否可以为这些文件设置不同的存储桶?如果不能,是否可以让我的ETL只读取以.csv结尾的文件?

profile picture
專家
已提問 6 個月前檢視次數 18 次
1 個回答
0

【以下的回答经过翻译处理】 我想明白了。当 Glue Data Catalog 需要我的 "Data Store "文件夹(这是它存储 part-r 文件的地方)时,我输入了与 S3 源文件相同的文件夹。只需将其更改为一个新的空文件夹,问题就解决了。

profile picture
專家
已回答 6 個月前

您尚未登入。 登入 去張貼答案。

一個好的回答可以清楚地回答問題並提供建設性的意見回饋,同時有助於提問者的專業成長。

回答問題指南