如何用 Glue 从 csv 的数据中提取出字符串?

0

【以下的问题经过翻译处理】 我将 csv 数据上传到 S3 存储桶,让 Glue 将它们转换为表供以后使用。我希望所有的列都作为字符串加载,而不用一个一个地指定每个列的名称。我们如何配置 Glue 将所有列加载为字符串,而不是转换为 bigint 等?

profile picture
EXPERTE
gefragt vor 5 Monaten27 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 你好,

在 Glue 中,我们使用crawlers从文件中自动检测表结构并在 Glue catalog中创建一个表。对于 CSV 文件,该crawler会读取前 100 条记录或前 1 MB 数据之前最先读完的一种来检测表结构。 [1]

既然如此,使用这种方法无法将所有 csv 列作为字符串直接加载到 Glue catalog中。您使用以下两种方法达成您的目标:

1.创建一个crawler并在csv数据上运行。一旦在 Glue catalog中创建了该表及其数据类型后,您可以将表结构的所有列修改为字符串。 2. 建立 Glue ETL job来直接从 csv 文件读取数据,并在 applymapping 这个操作中将表结构更改为字符串,并使用 enableUpdateCatalog 选项将该表写入Glue catalog。 [2]

  • 参考:

[1] https://aws.amazon.com/premiumsupport/knowledge-center/glue-crawler-detect-schema/ [2] https://docs.aws.amazon.com/glue/latest/dg/update-from-job.html

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen