NLP:有没有简单而好的方法来发现单词之间的语义相似性?

NLP:有没有简单而好的方法来发现单词之间的语义相似性?,nlp,Nlp,我不知道StackOverflow是否涵盖NLP,所以我要试一试。 我感兴趣的是寻找特定领域中两个词的语义关联,即“图像质量”和“噪声”。我正在做一些研究,以确定对于相机的特定属性,对相机的评论是正面的还是负面的。(就像每一篇评论中的图像质量一样) 然而,并不是每个人都在帖子中使用完全相同的措辞“图像质量”,所以我想看看是否有一种方法可以让我构建这样的东西: “图像质量”,包括(“噪声”、“颜色”、“清晰度”等) 所以我可以把所有的东西都包在一把大伞里 我这样做是为了另一种语言,所以Wordne

我不知道StackOverflow是否涵盖NLP,所以我要试一试。 我感兴趣的是寻找特定领域中两个词的语义关联,即“图像质量”和“噪声”。我正在做一些研究,以确定对于相机的特定属性,对相机的评论是正面的还是负面的。(就像每一篇评论中的图像质量一样)

然而,并不是每个人都在帖子中使用完全相同的措辞“图像质量”,所以我想看看是否有一种方法可以让我构建这样的东西:

“图像质量”,包括(“噪声”、“颜色”、“清晰度”等) 所以我可以把所有的东西都包在一把大伞里

我这样做是为了另一种语言,所以Wordnet不一定有用。不,我不为谷歌或微软工作,所以我也没有来自人们点击行为的数据作为输入数据


但是,我确实有很多文本、词性标记、分段等。

看看潜在的语义索引,它专门解决了您的问题。然而,你需要想出一些方法将这些元概念与积极或消极情绪联系起来。情绪分析应该会对你有所帮助。

关于你的评论:

  • 通过机器学习进行分类一直被用于NLP
  • 关于概念之间的语义相似性,请参见

  • 请看以下问题:,。

    您可能想看看这本书。
    如果您只对单词和短语的相似性感兴趣,本调查报告可能会帮助您:

    查看谷歌相似距离- 如果很多网页都包含这两者,那么它们可能是相关的

    演示程序在


    除此之外,你可以尝试翻译一个像wordnet这样的项目(谷歌翻译可能会有所帮助),或启动一个协作本体。

    为了找到单词之间的语义相似性,a应该做到这一点。这样的模型可以非常容易和相当有效地实现。最有可能的情况是,您需要实现某种降维。我能想到的最简单的方法是,它已经在NLP中广泛使用

    一旦你有了单词空间模型,你就可以计算单词之间的距离(例如余弦距离)。在这种模型中,你应该得到你前面提到的结果(“焦点”和“细节”之间的距离应该高于“相机重量”和“闪光灯”)


    希望这有帮助。

    < P>我在HACKENEX新闻上看到,几个星期前,看起来非常接近你想要的。

    单词空间无疑是通往这里的路。如果LSA要慢用你的应用程序,如果随机索引中的语义太浅,你应该考虑。 此REST API可以为您提供任何单词的语义指纹表示。此语义指纹包含单词所属的所有不同上下文。您可以通过一次调用消除任何单词的歧义,如“器官”返回(肌肉、钢琴、教堂、会员资格…) 对于每一个上下文,你可以得到上下文术语:“钢琴”将给出(风琴、单簧管、小提琴、长笛、大提琴、作曲、大键琴、管弦乐)


    关于你的最后一个方面,这些语义指纹完全独立于语言。目前API包括:英语、西班牙语、法语、德语、丹麦语、阿拉伯语、俄语、汉语。更多语言将在2014年底之前发布。

    如果你能更多地说明你正在处理的数据以及你想要完成的确切任务,那将非常有用e执行。您是否试图将个人评论的内容分为正面或负面?或者,您是否假设评论已经被标记为正面或负面,并且您试图找出相机的哪些属性会导致用户对产品的感觉(例如,该产品五颗星中有一颗星,用户在评论中提到“图像质量”,因此您推断图像质量不好)?哎呀。将NLP/自然语言处理与NLP/神经语言编程混淆了。我的不好。1)我想找到术语的总括分类:比如多个属性实际上如何属于同一个类别(我想这就是分类吗?)我只通过机器学习方法处理了分类,我非常怀疑这种方法是否可以应用于NLP 2)基本上,我想告诉我两个概念术语之间的相似性:“焦点”与“细节”应该比演示中的“相机重量”与“闪光灯”更高(编程,动物)的联系比(编程,html)的联系更强这里是真正学习LSI的好资源(如果你愿意投入一些工作)现在两个链接都断了