如何使用AWS Glue按行数拆分文件?

0

【以下的问题经过翻译处理】 我有一个文件,目前存储在S3桶中,包含约1000行,我想将这个文件分成更小的文件(每个文件约有200-500行)。 我在互联网上搜寻过,只发现将文件合并成较大的文件的解决方案。我可以使用Glue自定义输出文件吗?还是应该使用其他方法?

profile picture
EXPERTE
gefragt vor 6 Monaten12 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 你好,

正如你所提到的,你只有1000行文件,这是非常小的,为了处理这个目的,我建议使用以下shell命令,你可以在Ec2实例上执行。

aws s3 cp s3://sourcebucket/csv/nycflights13.csv - | split -d -l 200 --filter "aws s3 cp - \"s3://destbucket/csv/bigdata_\$FILE.csv\""

另外,你还可以使用Glue Python shell作业来执行上述shell命令。[1]

参考: [1] 使用Python执行shell命令:https://www.codingninjas.com/blog/2021/06/25/how-to-execute-shell-commands-with-python/#:~:text=The%20naive%20approach%20to%20run,function%20that%20executes%20shell%20commands

profile picture
EXPERTE
beantwortet vor 6 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen