Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/elixir/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp Brown语料库在基于WordNet的语义相似度度量中的作用是什么_Nlp_Similarity_Wordnet_Corpus_Semantic Analysis - Fatal编程技术网

Nlp Brown语料库在基于WordNet的语义相似度度量中的作用是什么

Nlp Brown语料库在基于WordNet的语义相似度度量中的作用是什么,nlp,similarity,wordnet,corpus,semantic-analysis,Nlp,Similarity,Wordnet,Corpus,Semantic Analysis,我遇到了几种使用WordNet的结构和层次结构来度量语义相似性的方法,例如Jiang和Conrath度量(JNC)、Resnik度量(RES)、Lin度量(Lin)等 使用NLTK测量它们的方式是: sim2=wn.jcn_similarity(entry1,entry2,brown_ic) sim3=entry1.res_similarity(entry2, brown_ic) sim4=entry1.lin_similarity(entry2,brown_ic) 如果WordNet是计算语

我遇到了几种使用WordNet的结构和层次结构来度量语义相似性的方法,例如Jiang和Conrath度量(JNC)、Resnik度量(RES)、Lin度量(Lin)等

使用NLTK测量它们的方式是:

sim2=wn.jcn_similarity(entry1,entry2,brown_ic)
sim3=entry1.res_similarity(entry2, brown_ic)
sim4=entry1.lin_similarity(entry2,brown_ic)

如果WordNet是计算语义相似度的基础,那么Brown语料库在这里有什么用途?

请看下面的解释

具体而言,*_ic表示法是信息内容

synset1.res_相似性(synset2,ic):Resnik相似性:返回分数 表示基于信息的两个词义的相似程度 最不常见的成分(最具体的祖先)的内容(IC) 节点)。请注意,对于使用信息的任何相似性度量 内容,结果取决于用于生成 信息内容以及信息内容如何 创建了

有关信息内容的更多信息,请访问:

测量词义IC的传统方法是组合 从类似本体论的知识中了解它们的层次结构 WordNet及其在文本中的实际使用情况统计数据,这些数据来源于 大量的语料库


代码中的brown_ic指的是信息内容文件~/nltk_data/corpora/wordnet_ic/ic-brown.dat。有关ic-brown.dat格式的更多详细信息,请查看NLTK用户组

总的来说,ic-brown.dat文件列出了brown语料库中存在的每个单词及其信息内容值(与单词频率相关)


JC、Resnik和Lin提出的语义度量都要求在WordNet之外使用语料库。这些度量将WordNet与语料库统计相结合,结果表明它们与人类判断的相关性比单独使用WordNet(;)更好。

那么我们可以说,即使可以使用
wn_ic=wn.ic(wn)
来进行有效的相似性度量,它也应该来自非WordNet的文本(例如brown)?因为你提到的论文说:
我们觉得WordNet也可以作为一种统计资源使用,而不需要外部资源
本文建议了一种基于下义词数量的方法。