HIVE_CANNOT_OPEN_SPLIT: 打开Hive分裂s3://bucket_1/parquet_sample/data_10720000_1时出错(偏移量=0,长度=16981465):org.apache.parquet.io.GroupColumnIO无法强制转换。

0

【以下的问题经过翻译处理】 我使用默认的snappy压缩方式将几个压缩后的json文件转换成了parquet文件。结果的文件总大小不到50MB。不确定为什么Athena会抛出此错误。我阅读了错误背后的背景,但不理解Athena是如何查询数千个文件导致此错误的。 我可以运行一个简单的select count(*)from table,但是select * from table查询失败。

由于在Python中遇到了尾随错误,必须一行一行地读取json文件。

有什么想法为什么会出现这种情况?

profile picture
전문가
질문됨 6달 전23회 조회
1개 답변
0

【以下的回答经过翻译处理】 此搜索此错误与S3速率限制无关。如果是这种情况,你会看到类似“减速”的东西。 错误的关键在于错误的最后一部分。

org.apache.parquet.io.GroupColumnIO cannot be cast

这个错误可能是由parquet模式不匹配引起的。检查你的表创建查询,并使用较小的数据子集进行测试。可能存在数据格式或表配置方面的问题。请参阅https://docs.aws.amazon.com/athena/latest/ug/troubleshooting-athena.html

profile picture
전문가
답변함 6달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인