1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 在默认配置下,UNLOAD命令导出与片数相等的文件数量。对于一个DC2.8xlarge 4个节点的集群,片数为64(4个节点*每个节点16个片)。这是默认行为,能使所有片段并行导出。当以Parquet格式导出时,Redshift试图使用32MB行组的块大小。这对于数据量较小的情况,32MB块大小已经足够,它会生成更小的文件。多个文件比单个文件更有效,因为对于单个文件,Redshift将来自表的数据组合,然后生成一个单个文件-无法发挥并行计算的优势。
生成固定大小的文件的一个解决方案是设置UNLOAD命令选项:PARALLEL OFF和MAXFILESIZE 1GB。
相关内容
- AWS 官方已更新 2 年前
- AWS 官方已更新 2 年前
- AWS 官方已更新 2 年前
- AWS 官方已更新 2 年前