Nlp Brown语料库在基于WordNet的语义相似度度量中的作用是什么_Nlp_Similarity_Wordnet_Corpus_Semantic Analysis

Nlp Brown语料库在基于WordNet的语义相似度度量中的作用是什么

nlp

Nlp Brown语料库在基于WordNet的语义相似度度量中的作用是什么,nlp,similarity,wordnet,corpus,semantic-analysis,Nlp,Similarity,Wordnet,Corpus,Semantic Analysis,我遇到了几种使用WordNet的结构和层次结构来度量语义相似性的方法，例如Jiang和Conrath度量（JNC）、Resnik度量（RES）、Lin度量（Lin）等使用NLTK测量它们的方式是： sim2=wn.jcn_similarity(entry1,entry2,brown_ic) sim3=entry1.res_similarity(entry2, brown_ic) sim4=entry1.lin_similarity(entry2,brown_ic) 如果WordNet是计算语

我遇到了几种使用WordNet的结构和层次结构来度量语义相似性的方法，例如Jiang和Conrath度量（JNC）、Resnik度量（RES）、Lin度量（Lin）等

使用NLTK测量它们的方式是：

sim2=wn.jcn_similarity(entry1,entry2,brown_ic)
sim3=entry1.res_similarity(entry2, brown_ic)
sim4=entry1.lin_similarity(entry2,brown_ic)

如果WordNet是计算语义相似度的基础，那么Brown语料库在这里有什么用途？

请看下面的解释

具体而言，*_ic表示法是信息内容

synset1.res_相似性（synset2，ic）：Resnik相似性：返回分数表示基于信息的两个词义的相似程度最不常见的成分（最具体的祖先）的内容（IC）节点）。请注意，对于使用信息的任何相似性度量内容，结果取决于用于生成信息内容以及信息内容如何创建了

有关信息内容的更多信息，请访问：

测量词义IC的传统方法是组合从类似本体论的知识中了解它们的层次结构 WordNet及其在文本中的实际使用情况统计数据，这些数据来源于大量的语料库

代码中的brown_ic指的是信息内容文件~/nltk_data/corpora/wordnet_ic/ic-brown.dat。有关ic-brown.dat格式的更多详细信息，请查看NLTK用户组

总的来说，ic-brown.dat文件列出了brown语料库中存在的每个单词及其信息内容值（与单词频率相关）

JC、Resnik和Lin提出的语义度量都要求在WordNet之外使用语料库。这些度量将WordNet与语料库统计相结合，结果表明它们与人类判断的相关性比单独使用WordNet（；）更好。

那么我们可以说，即使可以使用

wn_ic=wn.ic（wn）

来进行有效的相似性度量，它也应该来自非WordNet的文本（例如brown）？因为你提到的论文说：

我们觉得WordNet也可以作为一种统计资源使用，而不需要外部资源

本文建议了一种基于下义词数量的方法。