SageMaker Feature Store Spark 连接器正在复制数据

0

【以下的问题经过翻译处理】 你好!

我正在使用Feature Store Spark 连接器 将数据加载到 Sagemaker Feature Store中。当我们尝试将数据加载到启用在线存储的 Feature Group 时,数据会重复。在下图中,“customer_id” 是 ID 特征,“date_ref” 是事件列。对于相同的 ID 和 EventTime 列,所有特征都相同,除了 “api_invocation_time” 之外。

如果 Feature Group 没有启用在线存储,我们直接将数据加载到离线存储中,不会出现问题。但是,当我们在连接器中使用 “Ingest by default” 选项(未指定连接器中的“target_stores”,使用 PutRecord API),加载的数据会重复:

params = {
    "input_data_frame":dataframe,
    "feature_group_arn": feature_group_arn            
}

if not online_store_enabled:
    params["target_stores"] = ["OfflineStore"]
    logger.info(f"Ingesting data to the offline store")

pyspark_connector.ingest_data(**params)
logger.info("Finished the ingestion!")

failed_records = pyspark_connector.get_failed_stream_ingestion_data_frame()

如何使用连接器解决这个问题?

编辑: 显然,“get_failed_stream_ingestion_data_frame”方法存在问题。该方法在返回失败记录之前会再次加载数据。从摄取管道中删除该方法可以解决此问题,但我们会失去一种验证形式。

profile picture
EXPERTE
gefragt vor 8 Monaten76 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 此问题应在 1.1.1 版中得到修复。如果您从 1.1.0 版本升级,get_failed_stream_ingestion_data_frame 现在不应再触发任何重新计算。

profile picture
EXPERTE
beantwortet vor 8 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen