Python Spacy-实体链接器-为什么预测分数是prob和余弦sim的组合？_Python_Spacy_Entity Linking

Python Spacy-实体链接器-为什么预测分数是prob和余弦sim的组合？

python

Python Spacy-实体链接器-为什么预测分数是prob和余弦sim的组合？,python,spacy,entity-linking,Python,Spacy,Entity Linking,我正在使用spacy下实体链接器管道的预测方法，出于某种原因，分数定义如下： scores=prior\u probs+sims-（prior\u probs*sims）链接有没有人有这方面的经验/知道这个公式是从哪里来的谢谢它取自第4节方程式2 虽然我没有足够的信心详细解释这个公式，但总的来说，这个公式的目的是将来自外部基于知识的资源（本文中的KB）的所有候选人的概率分数与句子编码器估计的分数结合起来，用于对提及链接及其上下文进行编码，sims在公式中，因为它们计算编码提及向量和所有实

我正在使用spacy下实体链接器管道的预测方法，出于某种原因，分数定义如下：

scores=prior\u probs+sims-（prior\u probs*sims）

链接

有没有人有这方面的经验/知道这个公式是从哪里来的

谢谢

它取自第4节方程式2

虽然我没有足够的信心详细解释这个公式，但总的来说，这个公式的目的是将来自外部基于知识的资源（本文中的KB）的所有候选人的概率分数与句子编码器估计的分数结合起来，用于对提及链接及其上下文进行编码，sims在公式中，因为它们计算编码提及向量和所有实体候选之间的余弦相似性（这就是为什么只有在“incl_context”为真时才使用此公式）

嘿！谢谢你链接这篇文章！此外，我知道您在上文中提到，您对原因并不完全自信，但只是想确认一下，您是否知道论文中的P_文本（e/m）为什么/如何通过空间评分中的相似性来表示（即xp.dot（实体编码，句子嵌入）/（句子规范*实体规范）？spaCy中的上下文概率被测量为句子编码和实体编码之间的余弦相似性。实体编码是特定实体的Wikidata描述的编码，以KB为单位。因此，基本上它关注围绕实体的句子与该实体描述的相似程度。关于原始问题：它确实取自Edoardo链接的那篇论文，它基本上只是一般加法规则的一个例子：P（A）∪B） =P（A）+P（B）−P（A）∩B）。感谢@SofieVL提供的额外信息！我想这只是另一个简短的问题，可能也是用户3741951的疑问来源：他们如何将余弦相似性假设为概率？我知道在某些情况下，例如，通过tf idf导出的向量，相似性分数将限制在0和1之间（原因向量不能超过90°）但在这里，他们正在计算编码器隐藏表示之间的距离，他们如何确保最终分数在0-1范围内？