SageMaker Feature Store Spark 连接器正在复制数据

0

【以下的问题经过翻译处理】 你好!

我正在使用Feature Store Spark 连接器 将数据加载到 Sagemaker Feature Store中。当我们尝试将数据加载到启用在线存储的 Feature Group 时,数据会重复。在下图中,“customer_id” 是 ID 特征,“date_ref” 是事件列。对于相同的 ID 和 EventTime 列,所有特征都相同,除了 “api_invocation_time” 之外。

如果 Feature Group 没有启用在线存储,我们直接将数据加载到离线存储中,不会出现问题。但是,当我们在连接器中使用 “Ingest by default” 选项(未指定连接器中的“target_stores”,使用 PutRecord API),加载的数据会重复:

params = {
    "input_data_frame":dataframe,
    "feature_group_arn": feature_group_arn            
}

if not online_store_enabled:
    params["target_stores"] = ["OfflineStore"]
    logger.info(f"Ingesting data to the offline store")

pyspark_connector.ingest_data(**params)
logger.info("Finished the ingestion!")

failed_records = pyspark_connector.get_failed_stream_ingestion_data_frame()

如何使用连接器解决这个问题?

编辑: 显然,“get_failed_stream_ingestion_data_frame”方法存在问题。该方法在返回失败记录之前会再次加载数据。从摄取管道中删除该方法可以解决此问题,但我们会失去一种验证形式。

profile picture
专家
已提问 8 个月前73 查看次数
1 回答
0

【以下的回答经过翻译处理】 此问题应在 1.1.1 版中得到修复。如果您从 1.1.0 版本升级,get_failed_stream_ingestion_data_frame 现在不应再触发任何重新计算。

profile picture
专家
已回答 8 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则