String 如何找到两个短语之间的关系?

String 如何找到两个短语之间的关系?,string,nlp,text-manipulation,String,Nlp,Text Manipulation,我怎样才能找到两个完全不同但相关的短语之间的关系呢。例如: 1) “今天的社交媒体网站…” 2) “Facebook是非常受欢迎的社交网站…” 虽然这两个短语没有多少共同之处,但它们是相关的(因为Facebook是当今的社交媒体网站)。我如何量化这种关系(如果可能的话)?简单而无效的方法:使用单词而不是字符计算常用单词数(和/或单词本身),或两个句子之间的编辑距离。在这种情况下,两个句子中都会出现“社会”一词。您还可以找到一种方法,使用一些同义词库数据来检测同义词,例如“网站”和“站点”。这可能

我怎样才能找到两个完全不同但相关的短语之间的关系呢。例如: 1) “今天的社交媒体网站…” 2) “Facebook是非常受欢迎的社交网站…”


虽然这两个短语没有多少共同之处,但它们是相关的(因为Facebook是当今的社交媒体网站)。我如何量化这种关系(如果可能的话)?

简单而无效的方法:使用单词而不是字符计算常用单词数(和/或单词本身),或两个句子之间的编辑距离。在这种情况下,两个句子中都会出现“社会”一词。您还可以找到一种方法,使用一些同义词库数据来检测同义词,例如“网站”和“站点”。这可能需要一些工作。可以忽略常用词(“and”,“the”,“the…”),以减少巧合匹配的机会

细化:维护单词之间的某种链接图(例如“Facebook”和“网络”),根据单词之间的链接在一起出现的频率确定链接的权重,并以此为基础衡量关联性。保留一个经常出现的单词列表,并忽略它们。显然,这取决于您的算法是否有一些具有代表性的“训练数据”


复杂有效的方法:仔细阅读机器学习。

这是一个非常普遍的问题,您必须采用多种方法才能获得令人尊敬的结果。事实上,你所说的是NLP的最终目标。我建议你把问题分解成几个部分,然后逐一解决

谜题的第一部分是理解两个句子是否谈论相同/相似的实体。这可以通过识别不同句子中的主语、宾语、动词、位置指称、工具指称、与格指称等来实现。然后,这些参考文献可以相互比较。我想到的一个方法是看wordnet的距离。你必须在一段时间内积累你的词汇量

谜题的第二部分是解决句子的精神气质。你必须在这里使用机器学习方法和语言学

正如我所说,这是一个非常普遍的问题,因此很难一次性解决。如果我是你,我会用以下方式解决问题:

第一步。首先,将我的解决方案限制为一个域。这将帮助我建立更好的本体/词汇表,更好地训练我的模型

第二步:解决实体接近问题,试着理解哪些句子在谈论相似的主题或指向相似的对象等。这一步更像是一个语言学问题

第三步:在机器学习的帮助下,试着找出具有相似气质和音调的句子

步骤4:移动到下一个域并重复这些步骤


希望这有帮助

还是不确定这个问题。如果我假设你在寻找实体之间的相似性或联系,我是对的吗?或者甚至这些短语也应该被等同起来?@rishi很抱歉不够清晰。我试图在这两个短语之间找到一种关系,这种关系不一定是基于精确匹配项的相似性或物理连通性。相反,这个想法是要像一个人可能做的那样,找到短语之间的联系:基于外部信息和推理。。。