如何在AWS Glue中强制执行FindIncrementalMatches以使用现有的match_id

0

【以下的问题经过翻译处理】 应用场景如下: 我们有一个增量数据源,需要从中识别匹配的记录。为此,我们使用AWS Glue 2.0运行Find Matches。

这是我在初始源上运行FindMatches时,针对源生成以下结果。注意每条记录生成的match_id。

Find Matches Result

接着,我又运行Find Incremental Matches后的结果

当我基于上面FindMatches的生成的结果作为现有源运行FindIncrementalMatches时,生成了完全不同的Match ID如下:

Find Incremental Matches Result

我的问题:

在AWS Glue中,有没有一种方式可以强制FindIncrementalMatches在处理增量源的匹配时使用现有的match_id?

我们遵循以下链接中的步骤进行的实验:

  1. AWS博客-增量数据匹配
profile picture
EXPERTE
gefragt vor 5 Monaten39 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 我理解您是希望Glue在增量数据的连续FindIncrementalMatches运行中使用相同的match_id。

请注意,match_id是任意标识符,用作您的数据的标记,并表示经过ML转换算法预测的匹配记录。对于增量数据,数据集随时间变化,新的或修改的记录被添加,因此机器学习模型考虑了更多的候选行来决定配对,这可能会导致新的match_id,就像您在示例中提供的一样,从头开始标记。遗憾的是,在Glue中,我们目前没有任何选项可以强制先前生成的match_id,用于在后续的FindIncrementalMatches增量数据匹配计算。

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen