Nlp 基于句子相似度的释义识别

Nlp 基于句子相似度的释义识别,nlp,data-mining,text-mining,stanford-nlp,Nlp,Data Mining,Text Mining,Stanford Nlp,我是NLP(自然语言处理)的新成员。作为一个启动项目,我正在开发一个释义识别器(一个可以识别两个相似句子的系统)对于这个识别器,我将在词汇、句法、语义三个层次上应用不同的度量。在词汇层面上,有许多相似的度量,如余弦相似性、匹配系数、JACARD系数等等。我用谢菲尔德大学开发的Sim量度软件包。e表示不同的相似性度量。它包含很多相似性度量。但是对于levenshtein距离和jaro-winkler距离度量,代码仅在*字符级别*上。我需要在句子级别上的代码(即将单个单词作为一个单元,而不是字符级别

我是NLP(自然语言处理)的新成员。作为一个启动项目,我正在开发一个释义识别器(一个可以识别两个相似句子的系统)对于这个识别器,我将在词汇、句法、语义三个层次上应用不同的度量。在词汇层面上,有许多相似的度量,如余弦相似性、匹配系数、JACARD系数等等。我用谢菲尔德大学开发的Sim量度软件包。e表示不同的相似性度量。它包含很多相似性度量。但是对于levenshtein距离和jaro-winkler距离度量,代码仅在*字符级别*上。我需要在句子级别上的代码(即将单个单词作为一个单元,而不是字符级别).此外,SimMetrics中没有曼哈顿距离的代码…我请专家给我一个建议,以开发所需的代码(或)为我提供上述度量的句子级代码


提前非常感谢您花时间和精力帮助我。

正如Chris所建议的,对于初学者来说,这是一个非常重要的项目。我建议您开始做一些简单的事情(如果比较无聊的话),比如分块


请看一下Python NLTK库的文档和书籍-有一些示例与您要查找的内容非常接近。例如,包含:一条语句包含另一条语句是否合理。请注意,这里的“合理”,最先进的技术还不足以满足简单的是/否或甚至概率要求。

我一直在工作在NLP领域已经有几年了,我完全同意那些提供答案/评论的人。这确实是一个很难解决的问题!但是,让我仍然提供一些建议:

(一)词汇相似性:与其试图将Jaro-Winkler距离推广到句子层面,不如开发一个字符层面或单词层面的语言模型,并计算对数似然度。让我进一步解释:基于语料库训练你的语言模型。然后选取大量已被使用的候选句子en注释为与语料库中的句子相似/不相似。计算每个测试句子的对数似然,并建立一个截止值以确定相似性

(2) 语法相似性:到目前为止,只有柱状图相似性可以捕捉到这一点。为此,您需要使用PCFG解析树(或标记解析树。标记=树邻接语法,CFG的一种泛化)


(3) 语义相似性:在我脑海中,我只能想到使用诸如Wordnet之类的资源,并确定语法集之间的相似性。但这也不简单。你的第一个问题是确定两个(或更多)句子中的哪些词是“对应词”,然后才能继续检查它们的语义。

这是一个非常重要的问题。我怀疑你会在这方面找到很多专业知识或现有技术。如果你是NLP的新手,我真的认为你应该尝试一个更小、更有界的项目。请注意,“JNLP”与“NLP”无关。删除标记。