Athena error HIVE_BAD_DATA: Not valid Parquet file

0

Hello,

I created a glue table with parquet serde initially.

Details:
input format: org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
output format: org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
serde: org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
classification: parquet

Then I edited the table manually via console to use json serde.

Details:
input format: org.apache.hadoop.mapred.TextInputFormat
output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
serde: org.openx.data.jsonserde.JsonSerDe
classification: json

The underlying s3 data is in json format.

Now when I try to query the data via Athena, I get the below error.

HIVE_BAD_DATA: Not valid Parquet file

It seems Athena is not picking up the updated glue details? I tried MSCK repair on the table but it does not work.

Is there a way I can fix it without deleting the table?

Thanks.

질문됨 일 년 전1472회 조회
1개 답변
0

Figured it.

If I drop the existing partitions and add it, Athena does not give error anymore.

I also tried to add more partitions after this, new partitions are taking json serde now.

답변함 일 년 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인

관련 콘텐츠