Nlp Wordnet语法集偏移量?如何比较单词
我使用的是中国科学院的中文Wordnet。这是Wordnet 1.6的翻译。不幸的是,它不是免费提供的,必须购买,手册基本上说是参考Wordnet的手册。我想弄明白的是如何比较两个词之间的相似性。我想这是用WordNetSynsetOffset完成的,但是我在Wordnet网站上找不到任何关于如何使用它来比较两个单词的文档。至于实际的算法,我想这是一个好的开始Nlp Wordnet语法集偏移量?如何比较单词,nlp,similarity,wordnet,Nlp,Similarity,Wordnet,我使用的是中国科学院的中文Wordnet。这是Wordnet 1.6的翻译。不幸的是,它不是免费提供的,必须购买,手册基本上说是参考Wordnet的手册。我想弄明白的是如何比较两个词之间的相似性。我想这是用WordNetSynsetOffset完成的,但是我在Wordnet网站上找不到任何关于如何使用它来比较两个单词的文档。至于实际的算法,我想这是一个好的开始 运动 名词 00469856 通用詞彙 例題 通用詞彙 因此我认为您正在寻找的(基于评论)是WordNet API 如果中
运动
名词
00469856
通用詞彙
例題
通用詞彙
因此我认为您正在寻找的(基于评论)是WordNet API
如果中文格式相同,您可能可以使用安装附带的WordNet API。这是一个C库,您可以在此处找到文档:
基本上-下面是它的工作原理。Synset是所标识的Synset的一组同义词,由Synset Id(00469856)唯一标识。句法集通过各种形式的语义关系与其他句法集相连。大多数相似性度量都是通过搜索一个Synset(通过下面引用的数字,API应该支持这个),然后通过使用各种度量来查看另一个Synset有多远
语法集还包含语法集语义的文本描述——我们使用的标准词典定义。在某些情况下,某些相似性度量(如Lesk算法)使用文本描述来比较两个语法集之间的“相似性”
还有其他API允许您通过各种语言的WordNet API搜索和访问WordNet
例如,以下是WordNet 3.0字典文件中的示例语法集定义:
00020671 29 v 04催眠0催眠0催眠0催眠0催眠0(…更多遗漏)
唯一标识符00020671标识此语法集。催眠有四个同义词 一个词可以有许多可能的意义(语法集)。如果你想比较两个词义之间的相似性,你首先要消除每个词的歧义。一旦你知道你在比较哪两种感觉,你可以使用@bwalenz的建议。我不完全理解你的问题-你发布的链接是对我认为的“WordNet相似性度量是什么”问题的一个很好的回答。如果我没记错的话,Synset id实际上是原始文件的偏移量,等等“WordNetSynsetOffset在这种情况下,可能等于Synset Id。我不太明白00469856的意思,我想它与树中的位置有关,但我如何解析它并将其与另一个偏移量进行比较?例如,它如何与路径长度中的节点相关?或者你如何计算吴和帕默的深度?
<Record Conut="65">
<EnglishLemma>exercise</EnglishLemma>
<POS>Noun</POS>
<WordNetSynsetOffset Version="1.6">00469856</WordNetSynsetOffset>
<EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank>
<ChineseTransList>
<ChineseTrans>
<ChineseLemma>例題</ChineseLemma>
<ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank>
</ChineseTrans>
</ChineseTransList>
</Record>