Algorithm 词间语义距离的计算

Algorithm 词间语义距离的计算,algorithm,Algorithm,有人知道计算两个单词之间“语义距离”的好方法吗 一个计算同义词表中单词之间步数的算法立刻浮现在脑海中 好的,看起来一个类似的问题已经得到了回答:。可能的黑客:将这两个词发送到谷歌搜索,然后返回找到的#个页面。同义词表的想法有一些优点。一个想法是基于同义词库创建一个图表,其中节点是单词,边表示它们在同义词库中作为同义词列出。然后,您可以使用最短路径算法为您提供节点之间的距离,作为其相似性的度量 这里的一个困难是有些词在不同的上下文中有不同的含义。您的算法可能需要考虑到这一点,并使用定向链接,其中

有人知道计算两个单词之间“语义距离”的好方法吗

一个计算同义词表中单词之间步数的算法立刻浮现在脑海中



好的,看起来一个类似的问题已经得到了回答:。

可能的黑客:将这两个词发送到谷歌搜索,然后返回找到的#个页面。

同义词表的想法有一些优点。一个想法是基于同义词库创建一个图表,其中节点是单词,边表示它们在同义词库中作为同义词列出。然后,您可以使用最短路径算法为您提供节点之间的距离,作为其相似性的度量


这里的一个困难是有些词在不同的上下文中有不同的含义。您的算法可能需要考虑到这一点,并使用定向链接,其中传出链接的权重取决于所遵循的传入链接(或根据传入链接忽略某些传出链接)。

在文本挖掘中,有一条重要的格言:“你应该通过 它的公司”。这意味着可以根据经常出现在单词附近的术语来学习单词的意思

在不详细介绍的情况下,让我给出两个简单的选项来估计术语之间的语义距离:

  • 使用类似于(大型英语词汇数据库)的资源。WordNet表面上类似于一个同义词库,它根据词义将单词分组。单词之间的语义距离可以估计为连接两个单词的顶点数

  • 使用大型语料库(如Wikipedia),计算出现在您分析的单词附近的术语。创建两个向量并计算距离(例如余弦)

  • 您可以查看这些资料以获取有关主题的图片:


  • 对于大多数任意的词对,它们之间将没有“凯文·培根”路径,而这种距离将是无限的。这就是你想要的吗?我正在考虑这样一种算法,自动将用户信誉聚集在“域”中,这样用户就可以在一个域一个域的基础上获得更高的权限。e、 g.用户可能是“航海”方面的专家,因此我的系统会给予该用户更多有关航海相关项目的权限。谢谢。是的,这是一个棘手的问题,但是随着你对我的同义词库概念的扩展,通过关注语言的一个子集(例如,仅仅是名词),直觉上这听起来是可能的。不过,我现在没有时间实现这样一个系统。不过,叙词表并没有真正形成图表。每个条目都是一个“synset”——一组同义词,其中集合中的所有单词都具有相同的含义。如果一个词出现在多个语法集中,那是因为该词有多种含义-所以在两个语法集中划清界限不是很有用。@Nick-这不是我的专业领域,但是我可以看出,构建一个精确的图表是很困难的,因为根据语义,条目本身中的单词可能离目标更近或更远。也许使用多个同义词表,在一个语法集中包含这对词的每个同义词表加上1。我的意思是,当同一组字符(“单词”)出现在两个不同的语法集中时,它实际上不是同一个单词——它是一个不同的单词,拼写方式相同,或者至少有不同的含义。例如,[“矿山”、“存款”、“供应”]中的“矿山”与[“矿山”、“挖掘”]中的“矿山”不同,也与[“矿山”、“你的”]中的“矿山”不同,因此在它们之间留有一条边是没有意义的。如果语法集之间没有边,就只有一大组不相交的小图形。@Nick,同样不是专家,但它们不是典型的按意义分组的图形。您不能使用集合之间的常用词来确定如何从词中选择要在创建图形时使用的集合吗?您必须识别一个单词/意思对并将其链接起来,而不仅仅是单词。@Ben-本质上,这是计算这些单词共同拥有的文档数量。对于具有高度选择性的词,这可能有一些优点,但对于不是好的文档鉴别器的词,您可能会得到与非常密切相关的词的零相关性。虽然此链接可能回答了这个问题,最好在这里包括答案的基本部分,并提供链接供参考。如果链接页面发生更改,则仅链接的答案可能无效。