Glue ETL作业将part-r-00文件写入与我的输入相同的存储桶中。有没有办法改变这个?

0

【以下的问题经过翻译处理】 我从S3存储桶中读取文件,将其转换为Spark DataFrame,进行转换后又将其转换回Dyanmic DataFrame,然后写入Data Catalog。这会在与输入文件相同的存储桶中创建一堆part-r-00文件,因此我的脚本尝试读取和处理这些文件!它必须创建这些文件吗?是否可以为这些文件设置不同的存储桶?如果不能,是否可以让我的ETL只读取以.csv结尾的文件?

profile picture
专家
已提问 4 个月前10 查看次数
1 回答
0

【以下的回答经过翻译处理】 我想明白了。当 Glue Data Catalog 需要我的 "Data Store "文件夹(这是它存储 part-r 文件的地方)时,我输入了与 S3 源文件相同的文件夹。只需将其更改为一个新的空文件夹,问题就解决了。

profile picture
专家
已回答 4 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则