如何在Comprehend保留已分组的实体,比如(工程师+地址+电话)?

0

【以下的问题经过翻译处理】 我们正在进行自定义实体识别。有ENGINEER、ENGINEER_ADDRESS、ENGINEER_PHONE和ENGINEER_EMAIL这些实体,一个文件中可能有多个工程师及其信息,如何确保一个用户的信息都在一起?什么是最好的方法?

举个例子: Jane Johnson是一位工程师,居住在亚利桑那州斯科茨代尔市Hillside大街4024号,电话号码为480-424-9944,邮箱为jane@gmail.com。项目中的另一名工程师是Ben Franklin,他住在纽约的Geraldine Lane 262号,只能通过邮箱b.franklin@hotmail.com联系到他。

如何确保当我们进行后处理时,Ben的地址不与Jane的地址混在一起。

profile picture
专家
已提问 7 个月前34 查看次数
1 回答
0

【以下的回答经过翻译处理】 你好, 我理解您想知道我们是否可以基于信息(如电话号码和属于正确工程师实体的地址)将实体分组在一起。 目前AWS Comprehend不支持实体分组或标记实体与相关实体。您可以参考以下功能更新连接。查看此功能是否将包含在未来的Comprehend服务更新中,

  1. https://aws.amazon.com/new/
  2. https://aws.amazon.com/about-aws/whats-new/machine-learning/

当然,可以使用其他方法来处理该场景。 当我们有自定义实体识别器时,我们可以将其用于实时实体识别或异步分析作业。这两者都检测实体并以下面的格式输出

{
             "BeginOffset": 0,
             "EndOffset": 22,
             "Score": 0.9763959646224976,
             "Text": "John Johnson",
             "Type": "JUDGE"
}

您可以参考以下链接以获取有关自定义实体识别器输出的更多详细信息

  1. 即时查看:https://docs.aws.amazon.com/comprehend/latest/dg/outputs-cer-sync.html
  2. 异步操作:https://docs.aws.amazon.com/comprehend/latest/dg/outputs-cer-async.html 如您在输出中看到的那样,每个实体都具有表示实体开始的“BeginOffset”参数和表示源文档中实体结束的“EndOffset”参数。 (请参阅链接以获取有关输出中实体组件的更多详细信息)

我们可以使用这些参数来检查哪些电话号码和地址实体被放置或出现在内部实体附近。我们可以使用这些信息来检查输入文档中哪些实体彼此靠近,并根据这些偏移详细信息对它们进行分组。

例如:如果输出具有以下详细信息:

`Engineer: "Jane", beginOffset: 0, endOffset: 5
PhoneNumber: 12345, beginOffset: 15, endOffset: 20
Engineer: "Helen", beginOffset: 90, endOffset: 95
PhoneNumber: 67890, beginOffset: 100, endOffset: 105`

在这里,由于工程师Jane根据偏移详细信息出现在电话号码12345附近,因此该电话很可能与工程师有关.

但是,请注意,我们必须对输出脚本进行后期处理才能实现这一点。我们可以使用任何本地python脚本或任何其他语言脚本来处理输出文件,并将实体分组到所需的文件中。

profile picture
专家
已回答 7 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则