Nlp 查找与特定单词相关的单词(特别是物理对象)

Nlp 查找与特定单词相关的单词(特别是物理对象),nlp,semantics,wordnet,Nlp,Semantics,Wordnet,我试图找到与单个单词相关的单词(特别是物理对象)。例如: 网球:网球拍、网球、网球鞋 斯诺克:斯诺克球杆、斯诺克球、粉笔 国际象棋:棋盘、棋子 书架:书 我曾尝试使用WordNet,特别是meronym语义关系;但是,该方法不一致,如下结果所示: 网球:发球、截击、脚部失误、定点、回击、优势 斯诺克:什么都没有 国际象棋:国际象棋移动,棋盘(其自身的meronym关系显示“正方形”和“对角线”) 书架:书架 最终将需要对条款进行加权,但现在这并不是一个真正的问题 有人对如何做到这一点有什么建议吗

我试图找到与单个单词相关的单词(特别是物理对象)。例如:

网球:网球拍、网球、网球鞋

斯诺克:斯诺克球杆、斯诺克球、粉笔

国际象棋:棋盘、棋子

书架:书

我曾尝试使用WordNet,特别是meronym语义关系;但是,该方法不一致,如下结果所示:

网球:发球、截击、脚部失误、定点、回击、优势

斯诺克:什么都没有

国际象棋:国际象棋移动,棋盘(其自身的meronym关系显示“正方形”和“对角线”)

书架:书架

最终将需要对条款进行加权,但现在这并不是一个真正的问题

有人对如何做到这一点有什么建议吗


只是一个更新:最终使用了Jeff和StompChicken的混合答案

从维基百科检索到的信息质量非常好,特别是(毫不奇怪)有如此多的相关信息(与一些不存在“博客”和“ipod”等术语的语料库相比)

维基百科的结果范围是最好的部分。该软件能够匹配以下术语(为简洁起见剪切列表):

  • 高尔夫:[球、铁、球座、包、球杆]
  • 摄影:[照相机、胶片、照片、艺术、图像]
  • 钓鱼:[鱼、网、钩、陷阱、诱饵、诱饵、鱼竿]

最大的问题是将某些单词归类为实物;默认WordNet不是一个可靠的资源,因为许多术语(例如“ipod”,甚至“蹦床”)都不存在于其中。

在第一种情况下,您可能正在查找n=2的位置。你可以从谷歌(Google)之类的地方获得它们,也可以从其他地方创建自己的


有关更多信息,请查看。

我认为您需要的是概念之间语义关系的来源。为此,我可以想出许多方法:

  • 。这些算法通常对Wordnet中的关系执行树遍历,以得出两个术语之间的关联程度的实值分数。这些将受到WordNet对您感兴趣的概念的建模程度的限制。(用Perl编写)非常好
  • 尝试将其用作知识库。OpenCyc是Cyc的开源版本,Cyc是一个关于“现实世界”事实的大型知识库。它应该比WordNet有更丰富的语义关系。然而,我从来没有使用过OpenCyc,所以我不能说它有多完整,或者说它有多容易使用
  • n-gram频率分析。正如杰夫·莫瑟所说。一种数据驱动的方法,可以从大量数据中“发现”关系,但通常会产生嘈杂的结果
  • 。一种数据驱动的方法,类似于n-gram频率分析,用于查找语义相关的词集
  • [……]

    从你说的你想做的判断,我认为最后两个选择更有可能成功。如果这些关系不在Wordnet中,那么语义相似性就不起作用,而且OpenCyc似乎除了知道它存在的事实之外,对其他方面了解不多


    我认为n-gram和LSA(或类似的东西)的组合将是一个好主意。N-gram频率将发现与目标概念紧密相关的概念(如网球),LSA将发现同一句子/文件中提到的相关概念(如网、发球)。此外,如果您只对名词感兴趣,则过滤输出以仅包含名词或名词短语(通过使用a)可能会提高结果。

    n-grams of 2就是通常一起出现的所有单词对。我认为海报所问的是语义关系。这个想法是,如果它们一起出现,如果出现的次数足够多,可能会有一些语义关系(例如,“网球拍”)与“打网球”一样具有语义关系。这是一个正确的想法。然而,问题是关于使用WordNet查找语义关系,而不是关于使用n-grams。如果我不清楚的话,很抱歉,这个问题不是WordNet特有的。n-gram方法听起来很有趣,但我不知道它如何解决我的问题,因为只有单数词(如“网球”)来尝试寻找关系。n-gram的想法是,你可以看到接近“网球”的常用词他们出现在一起的事实表明他们之间可能有某种关系。非常感谢,你的信息给了我很多调查的机会。没问题,祝你好运。这并不容易:)嗨,我尝试过这种方法,但结果往往是随机的,与搜索查询无关。你能详细说明一下你做了什么吗?例如,您是否使用了维基百科的反向链接、链接和类别?