如何使用AWS Glue按行数拆分文件?

0

【以下的问题经过翻译处理】 我有一个文件,目前存储在S3桶中,包含约1000行,我想将这个文件分成更小的文件(每个文件约有200-500行)。 我在互联网上搜寻过,只发现将文件合并成较大的文件的解决方案。我可以使用Glue自定义输出文件吗?还是应该使用其他方法?

profile picture
전문가
질문됨 6달 전12회 조회
1개 답변
0

【以下的回答经过翻译处理】 你好,

正如你所提到的,你只有1000行文件,这是非常小的,为了处理这个目的,我建议使用以下shell命令,你可以在Ec2实例上执行。

aws s3 cp s3://sourcebucket/csv/nycflights13.csv - | split -d -l 200 --filter "aws s3 cp - \"s3://destbucket/csv/bigdata_\$FILE.csv\""

另外,你还可以使用Glue Python shell作业来执行上述shell命令。[1]

参考: [1] 使用Python执行shell命令:https://www.codingninjas.com/blog/2021/06/25/how-to-execute-shell-commands-with-python/#:~:text=The%20naive%20approach%20to%20run,function%20that%20executes%20shell%20commands

profile picture
전문가
답변함 6달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인

관련 콘텐츠