如何使用AWS Glue从Bigquery一次性传输整个数据集到S3?

0

【以下的问题经过翻译处理】 我试图将数据从 Google BigQuery 迁移到 AWS S3。但是我在来源方面遇到以下问题(控制台)。

连接选项:

为数据源连接输入其他Key-Value对:

**Key: parentProject Value: serene-craft-3363XX

**Key: table Value: bigquery-public-data:austin_bikeshare.bikeshare_stations

我的问题是,如果我想替换表格为数据集,应该怎么办?

需要注意的是,我尝试写(dataset)但它没有起作用!

请你能否给予建议?提前感谢。

profile picture
专家
已提问 5 个月前24 查看次数
1 回答
0

【以下的回答经过翻译处理】 如果我猜得没错的话,你正在使用AWS Glue Studio和AWS Glue Big Query连接器。

目前,Glue Big Query连接器仅适用于表级别(就像BigQuery Spark Connector一样)。

如果你想导出数据集中的所有表,则可以编辑由Glue Studio生成并自定义的脚本。

首先,你需要使用此处提到的方法添加google.cloud的Python库。

然后,在读取表之前,你可以按照此处描述的方式读取数据集中的表列表

最后,你可以遍历这些表并将它们读写到S3。

另一种可能的方法是使用编排器,例如 StepFunctions(或者Airflow),运行一个Python脚本来读取表列表,然后为每个表并行地执行特定的作业(通过表名进行参数化)。

希望这可以帮到你。

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则