如何在AWS Glue中强制执行FindIncrementalMatches以使用现有的match_id

0

【以下的问题经过翻译处理】 应用场景如下: 我们有一个增量数据源,需要从中识别匹配的记录。为此,我们使用AWS Glue 2.0运行Find Matches。

这是我在初始源上运行FindMatches时,针对源生成以下结果。注意每条记录生成的match_id。

Find Matches Result

接着,我又运行Find Incremental Matches后的结果

当我基于上面FindMatches的生成的结果作为现有源运行FindIncrementalMatches时,生成了完全不同的Match ID如下:

Find Incremental Matches Result

我的问题:

在AWS Glue中,有没有一种方式可以强制FindIncrementalMatches在处理增量源的匹配时使用现有的match_id?

我们遵循以下链接中的步骤进行的实验:

  1. AWS博客-增量数据匹配
profile picture
エキスパート
質問済み 5ヶ月前39ビュー
1回答
0

【以下的回答经过翻译处理】 我理解您是希望Glue在增量数据的连续FindIncrementalMatches运行中使用相同的match_id。

请注意,match_id是任意标识符,用作您的数据的标记,并表示经过ML转换算法预测的匹配记录。对于增量数据,数据集随时间变化,新的或修改的记录被添加,因此机器学习模型考虑了更多的候选行来决定配对,这可能会导致新的match_id,就像您在示例中提供的一样,从头开始标记。遗憾的是,在Glue中,我们目前没有任何选项可以强制先前生成的match_id,用于在后续的FindIncrementalMatches增量数据匹配计算。

profile picture
エキスパート
回答済み 5ヶ月前

ログインしていません。 ログイン 回答を投稿する。

優れた回答とは、質問に明確に答え、建設的なフィードバックを提供し、質問者の専門分野におけるスキルの向上を促すものです。

質問に答えるためのガイドライン