Glue ETL作业将part-r-00文件写入与我的输入相同的存储桶中。有没有办法改变这个?

0

【以下的问题经过翻译处理】 我从S3存储桶中读取文件,将其转换为Spark DataFrame,进行转换后又将其转换回Dyanmic DataFrame,然后写入Data Catalog。这会在与输入文件相同的存储桶中创建一堆part-r-00文件,因此我的脚本尝试读取和处理这些文件!它必须创建这些文件吗?是否可以为这些文件设置不同的存储桶?如果不能,是否可以让我的ETL只读取以.csv结尾的文件?

profile picture
EXPERT
asked 5 months ago17 views
1 Answer
0

【以下的回答经过翻译处理】 我想明白了。当 Glue Data Catalog 需要我的 "Data Store "文件夹(这是它存储 part-r 文件的地方)时,我输入了与 S3 源文件相同的文件夹。只需将其更改为一个新的空文件夹,问题就解决了。

profile picture
EXPERT
answered 5 months ago

You are not logged in. Log in to post an answer.

A good answer clearly answers the question and provides constructive feedback and encourages professional growth in the question asker.

Guidelines for Answering Questions