【以下的问题经过翻译处理】 您好,
我有一个S3 Bucket,路径如下:“s3://a/b/c”。
在“c”文件夹内,我有每个表的一个文件夹。对于每个这样的表文件夹,我都有每个版本的文件夹。每个版本都是定期进行的数据库快照,由工作流程运行获得。为澄清起见,“c”内部的结构如下:
- 产品
- /version_0
- _temporary
- 0_$folder$
- part-00000-c5... ...c000.snappy.parquet
- /version_1
- _temporary
- 0_$folder$
- part-00000-c5... ...c000.snappy.parquet
- 地点
- /version_0
- _temporary
- 0_$folder$
- part-00000-c5... ...c000.snappy.parquet
- /version_1
- _temporary
- 0_$folder$
- part-00000-c5... ...c000.snappy.parquet
我创建了一个爬虫(包含路径设置为上述相同的路径-“s3://a/b/c”),以合并每个表(产品,地点)的所有版本成为一个表。不同分区的模式始终相同。不同分区的结构也始终相同。
“_temporary”文件夹是由工作流程自动生成的。
我应该设置哪个实际的正确排除路径(忽略_temporary文件夹中的所有内容)和可能设置任何表级别,以使我仅创建每个表(产品,地点)合并所有版本的一个表?
总结一下,我应该有两张桌子:
- 产品(包含version_0和version_1行)
- 地点(包含