如何使用AWS Glue从Bigquery一次性传输整个数据集到S3?

0

【以下的问题经过翻译处理】 我试图将数据从 Google BigQuery 迁移到 AWS S3。但是我在来源方面遇到以下问题(控制台)。

连接选项:

为数据源连接输入其他Key-Value对:

**Key: parentProject Value: serene-craft-3363XX

**Key: table Value: bigquery-public-data:austin_bikeshare.bikeshare_stations

我的问题是,如果我想替换表格为数据集,应该怎么办?

需要注意的是,我尝试写(dataset)但它没有起作用!

请你能否给予建议?提前感谢。

profile picture
EXPERTE
gefragt vor 5 Monaten28 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 如果我猜得没错的话,你正在使用AWS Glue Studio和AWS Glue Big Query连接器。

目前,Glue Big Query连接器仅适用于表级别(就像BigQuery Spark Connector一样)。

如果你想导出数据集中的所有表,则可以编辑由Glue Studio生成并自定义的脚本。

首先,你需要使用此处提到的方法添加google.cloud的Python库。

然后,在读取表之前,你可以按照此处描述的方式读取数据集中的表列表

最后,你可以遍历这些表并将它们读写到S3。

另一种可能的方法是使用编排器,例如 StepFunctions(或者Airflow),运行一个Python脚本来读取表列表,然后为每个表并行地执行特定的作业(通过表名进行参数化)。

希望这可以帮到你。

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen