如何使用AWS Glue按行数拆分文件?

0

【以下的问题经过翻译处理】 我有一个文件,目前存储在S3桶中,包含约1000行,我想将这个文件分成更小的文件(每个文件约有200-500行)。 我在互联网上搜寻过,只发现将文件合并成较大的文件的解决方案。我可以使用Glue自定义输出文件吗?还是应该使用其他方法?

profile picture
エキスパート
質問済み 6ヶ月前12ビュー
1回答
0

【以下的回答经过翻译处理】 你好,

正如你所提到的,你只有1000行文件,这是非常小的,为了处理这个目的,我建议使用以下shell命令,你可以在Ec2实例上执行。

aws s3 cp s3://sourcebucket/csv/nycflights13.csv - | split -d -l 200 --filter "aws s3 cp - \"s3://destbucket/csv/bigdata_\$FILE.csv\""

另外,你还可以使用Glue Python shell作业来执行上述shell命令。[1]

参考: [1] 使用Python执行shell命令:https://www.codingninjas.com/blog/2021/06/25/how-to-execute-shell-commands-with-python/#:~:text=The%20naive%20approach%20to%20run,function%20that%20executes%20shell%20commands

profile picture
エキスパート
回答済み 6ヶ月前

ログインしていません。 ログイン 回答を投稿する。

優れた回答とは、質問に明確に答え、建設的なフィードバックを提供し、質問者の専門分野におけるスキルの向上を促すものです。

質問に答えるためのガイドライン