Glue ETL作业将part-r-00文件写入与我的输入相同的存储桶中。有没有办法改变这个?

0

【以下的问题经过翻译处理】 我从S3存储桶中读取文件,将其转换为Spark DataFrame,进行转换后又将其转换回Dyanmic DataFrame,然后写入Data Catalog。这会在与输入文件相同的存储桶中创建一堆part-r-00文件,因此我的脚本尝试读取和处理这些文件!它必须创建这些文件吗?是否可以为这些文件设置不同的存储桶?如果不能,是否可以让我的ETL只读取以.csv结尾的文件?

profile picture
전문가
질문됨 5달 전17회 조회
1개 답변
0

【以下的回答经过翻译处理】 我想明白了。当 Glue Data Catalog 需要我的 "Data Store "文件夹(这是它存储 part-r 文件的地方)时,我输入了与 S3 源文件相同的文件夹。只需将其更改为一个新的空文件夹,问题就解决了。

profile picture
전문가
답변함 5달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인