1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 Glue与DynamoDB的连接 是通过基于DynamoDB的“BatchWriteItems” API来实现的,其中它以每个请求 25 个Item 的形式批量写入。由于您使用“postal_code”作为partition key,如果一批 25 个Item中的两个Item 包含相同的“postal_code”,那么您将收到此异常。
在写入DynamoDB之前,您可以将 DynamicFrame 转换为 Dataframe 并在 postal_code 列上调用 distinct 或 dropDuplicates。然后您必须转换回 DynamicFrame 以将 DynamoDB 用作接收器。
df
.select("postal_code")
.distinct
.withColumn("postal_code","other", "other1"))
.show()
另一件值得检查的事情是您没有读取 CSV 标头,这也可能是同一批次中出现重复项的原因。您可以在使用以下 [param](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html#aws-glue-编程-etl-格式-csv):
'withHeader': False
相关内容
- AWS 官方已更新 2 年前
- AWS 官方已更新 2 年前
- AWS 官方已更新 4 个月前
- AWS 官方已更新 2 年前