Nlp Wordnet语法集偏移量？如何比较单词_Nlp_Similarity_Wordnet

Nlp Wordnet语法集偏移量？如何比较单词

nlp

Nlp Wordnet语法集偏移量？如何比较单词,nlp,similarity,wordnet,Nlp,Similarity,Wordnet,我使用的是中国科学院的中文Wordnet。这是Wordnet 1.6的翻译。不幸的是，它不是免费提供的，必须购买，手册基本上说是参考Wordnet的手册。我想弄明白的是如何比较两个词之间的相似性。我想这是用WordNetSynsetOffset完成的，但是我在Wordnet网站上找不到任何关于如何使用它来比较两个单词的文档。至于实际的算法，我想这是一个好的开始运动名词 00469856 通用詞彙例題通用詞彙因此我认为您正在寻找的（基于评论）是WordNet API 如果中

我使用的是中国科学院的中文Wordnet。这是Wordnet 1.6的翻译。不幸的是，它不是免费提供的，必须购买，手册基本上说是参考Wordnet的手册。我想弄明白的是如何比较两个词之间的相似性。我想这是用WordNetSynsetOffset完成的，但是我在Wordnet网站上找不到任何关于如何使用它来比较两个单词的文档。至于实际的算法，我想这是一个好的开始


运动
名词
00469856
通用詞彙  
例題  
通用詞彙

因此我认为您正在寻找的（基于评论）是WordNet API

如果中文格式相同，您可能可以使用安装附带的WordNet API。这是一个C库，您可以在此处找到文档：

基本上-下面是它的工作原理。Synset是所标识的Synset的一组同义词，由Synset Id（00469856）唯一标识。句法集通过各种形式的语义关系与其他句法集相连。大多数相似性度量都是通过搜索一个Synset（通过下面引用的数字，API应该支持这个），然后通过使用各种度量来查看另一个Synset有多远

语法集还包含语法集语义的文本描述——我们使用的标准词典定义。在某些情况下，某些相似性度量（如Lesk算法）使用文本描述来比较两个语法集之间的“相似性”

还有其他API允许您通过各种语言的WordNet API搜索和访问WordNet

例如，以下是WordNet 3.0字典文件中的示例语法集定义：

00020671 29 v 04催眠0催眠0催眠0催眠0催眠0（…更多遗漏）

唯一标识符00020671标识此语法集。催眠有四个同义词

一个词可以有许多可能的意义（语法集）。如果你想比较两个词义之间的相似性，你首先要消除每个词的歧义。一旦你知道你在比较哪两种感觉，你可以使用@bwalenz的建议。

我不完全理解你的问题-你发布的链接是对我认为的“WordNet相似性度量是什么”问题的一个很好的回答。如果我没记错的话，Synset id实际上是原始文件的偏移量，等等“WordNetSynsetOffset在这种情况下，可能等于Synset Id。我不太明白00469856的意思，我想它与树中的位置有关，但我如何解析它并将其与另一个偏移量进行比较？例如，它如何与路径长度中的节点相关？或者你如何计算吴和帕默的深度？

<Record Conut="65">  
    <EnglishLemma>exercise</EnglishLemma>  
    <POS>Noun</POS>  
    <WordNetSynsetOffset Version="1.6">00469856</WordNetSynsetOffset>  
    <EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank>  
    <ChineseTransList>  
        <ChineseTrans>  
            <ChineseLemma>例題</ChineseLemma>  
            <ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank>  
        </ChineseTrans>  
    </ChineseTransList>  
</Record>