如何在AWS Glue中强制执行FindIncrementalMatches以使用现有的match_id

0

【以下的问题经过翻译处理】 应用场景如下: 我们有一个增量数据源,需要从中识别匹配的记录。为此,我们使用AWS Glue 2.0运行Find Matches。

这是我在初始源上运行FindMatches时,针对源生成以下结果。注意每条记录生成的match_id。

Find Matches Result

接着,我又运行Find Incremental Matches后的结果

当我基于上面FindMatches的生成的结果作为现有源运行FindIncrementalMatches时,生成了完全不同的Match ID如下:

Find Incremental Matches Result

我的问题:

在AWS Glue中,有没有一种方式可以强制FindIncrementalMatches在处理增量源的匹配时使用现有的match_id?

我们遵循以下链接中的步骤进行的实验:

  1. AWS博客-增量数据匹配
profile picture
专家
已提问 5 个月前34 查看次数
1 回答
0

【以下的回答经过翻译处理】 我理解您是希望Glue在增量数据的连续FindIncrementalMatches运行中使用相同的match_id。

请注意,match_id是任意标识符,用作您的数据的标记,并表示经过ML转换算法预测的匹配记录。对于增量数据,数据集随时间变化,新的或修改的记录被添加,因此机器学习模型考虑了更多的候选行来决定配对,这可能会导致新的match_id,就像您在示例中提供的一样,从头开始标记。遗憾的是,在Glue中,我们目前没有任何选项可以强制先前生成的match_id,用于在后续的FindIncrementalMatches增量数据匹配计算。

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则