Python Spacy-实体链接器-为什么预测分数是prob和余弦sim的组合?

Python Spacy-实体链接器-为什么预测分数是prob和余弦sim的组合?,python,spacy,entity-linking,Python,Spacy,Entity Linking,我正在使用spacy下实体链接器管道的预测方法,出于某种原因,分数定义如下: scores=prior\u probs+sims-(prior\u probs*sims) 链接 有没有人有这方面的经验/知道这个公式是从哪里来的 谢谢 它取自第4节方程式2 虽然我没有足够的信心详细解释这个公式,但总的来说,这个公式的目的是将来自外部基于知识的资源(本文中的KB)的所有候选人的概率分数与句子编码器估计的分数结合起来,用于对提及链接及其上下文进行编码,sims在公式中,因为它们计算编码提及向量和所有实

我正在使用spacy下实体链接器管道的预测方法,出于某种原因,分数定义如下:

scores=prior\u probs+sims-(prior\u probs*sims)

链接

有没有人有这方面的经验/知道这个公式是从哪里来的

谢谢

它取自第4节方程式2


虽然我没有足够的信心详细解释这个公式,但总的来说,这个公式的目的是将来自外部基于知识的资源(本文中的KB)的所有候选人的概率分数与句子编码器估计的分数结合起来,用于对提及链接及其上下文进行编码,sims在公式中,因为它们计算编码提及向量和所有实体候选之间的余弦相似性(这就是为什么只有在“incl_context”为真时才使用此公式)

嘿!谢谢你链接这篇文章!此外,我知道您在上文中提到,您对原因并不完全自信,但只是想确认一下,您是否知道论文中的P_文本(e/m)为什么/如何通过空间评分中的相似性来表示(即xp.dot(实体编码,句子嵌入)/(句子规范*实体规范)?spaCy中的上下文概率被测量为句子编码和实体编码之间的余弦相似性。实体编码是特定实体的Wikidata描述的编码,以KB为单位。因此,基本上它关注围绕实体的句子与该实体描述的相似程度。关于原始问题:它确实取自Edoardo链接的那篇论文,它基本上只是一般加法规则的一个例子:P(A)∪B) =P(A)+P(B)−P(A)∩B) 。感谢@SofieVL提供的额外信息!我想这只是另一个简短的问题,可能也是用户3741951的疑问来源:他们如何将余弦相似性假设为概率?我知道在某些情况下,例如,通过tf idf导出的向量,相似性分数将限制在0和1之间(原因向量不能超过90°)但在这里,他们正在计算编码器隐藏表示之间的距离,他们如何确保最终分数在0-1范围内?