HIVE_CANNOT_OPEN_SPLIT: 打开Hive分裂s3://bucket_1/parquet_sample/data_10720000_1时出错(偏移量=0,长度=16981465):org.apache.parquet.io.GroupColumnIO无法强制转换。

0

【以下的问题经过翻译处理】 我使用默认的snappy压缩方式将几个压缩后的json文件转换成了parquet文件。结果的文件总大小不到50MB。不确定为什么Athena会抛出此错误。我阅读了错误背后的背景,但不理解Athena是如何查询数千个文件导致此错误的。 我可以运行一个简单的select count(*)from table,但是select * from table查询失败。

由于在Python中遇到了尾随错误,必须一行一行地读取json文件。

有什么想法为什么会出现这种情况?

profile picture
专家
已提问 7 个月前29 查看次数
1 回答
0

【以下的回答经过翻译处理】 此搜索此错误与S3速率限制无关。如果是这种情况,你会看到类似“减速”的东西。 错误的关键在于错误的最后一部分。

org.apache.parquet.io.GroupColumnIO cannot be cast

这个错误可能是由parquet模式不匹配引起的。检查你的表创建查询,并使用较小的数据子集进行测试。可能存在数据格式或表配置方面的问题。请参阅https://docs.aws.amazon.com/athena/latest/ug/troubleshooting-athena.html

profile picture
专家
已回答 7 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则