Nlp 基于句子相似度的释义识别_Nlp_Data Mining_Text Mining_Stanford Nlp

Nlp 基于句子相似度的释义识别

nlp stanford-nlp

Nlp 基于句子相似度的释义识别,nlp,data-mining,text-mining,stanford-nlp,Nlp,Data Mining,Text Mining,Stanford Nlp,我是NLP（自然语言处理）的新成员。作为一个启动项目，我正在开发一个释义识别器（一个可以识别两个相似句子的系统）对于这个识别器，我将在词汇、句法、语义三个层次上应用不同的度量。在词汇层面上，有许多相似的度量，如余弦相似性、匹配系数、JACARD系数等等。我用谢菲尔德大学开发的Sim量度软件包。e表示不同的相似性度量。它包含很多相似性度量。但是对于levenshtein距离和jaro-winkler距离度量，代码仅在*字符级别*上。我需要在句子级别上的代码（即将单个单词作为一个单元，而不是字符级别

我是NLP（自然语言处理）的新成员。作为一个启动项目，我正在开发一个释义识别器（一个可以识别两个相似句子的系统）对于这个识别器，我将在词汇、句法、语义三个层次上应用不同的度量。在词汇层面上，有许多相似的度量，如余弦相似性、匹配系数、JACARD系数等等。我用谢菲尔德大学开发的Sim量度软件包。e表示不同的相似性度量。它包含很多相似性度量。但是对于levenshtein距离和jaro-winkler距离度量，代码仅在*字符级别*上。我需要在句子级别上的代码（即将单个单词作为一个单元，而不是字符级别）.此外，SimMetrics中没有曼哈顿距离的代码…我请专家给我一个建议，以开发所需的代码（或）为我提供上述度量的句子级代码

提前非常感谢您花时间和精力帮助我。

正如Chris所建议的，对于初学者来说，这是一个非常重要的项目。我建议您开始做一些简单的事情（如果比较无聊的话），比如分块

请看一下Python NLTK库的文档和书籍-有一些示例与您要查找的内容非常接近。例如，包含：一条语句包含另一条语句是否合理。请注意，这里的“合理”，最先进的技术还不足以满足简单的是/否或甚至概率要求。

我一直在工作在NLP领域已经有几年了，我完全同意那些提供答案/评论的人。这确实是一个很难解决的问题！但是，让我仍然提供一些建议：

(一)词汇相似性：与其试图将Jaro-Winkler距离推广到句子层面，不如开发一个字符层面或单词层面的语言模型，并计算对数似然度。让我进一步解释：基于语料库训练你的语言模型。然后选取大量已被使用的候选句子en注释为与语料库中的句子相似/不相似。计算每个测试句子的对数似然，并建立一个截止值以确定相似性

（2）语法相似性：到目前为止，只有柱状图相似性可以捕捉到这一点。为此，您需要使用PCFG解析树（或标记解析树。标记=树邻接语法，CFG的一种泛化）

（3）语义相似性：在我脑海中，我只能想到使用诸如Wordnet之类的资源，并确定语法集之间的相似性。但这也不简单。你的第一个问题是确定两个（或更多）句子中的哪些词是“对应词”，然后才能继续检查它们的语义。

这是一个非常重要的问题。我怀疑你会在这方面找到很多专业知识或现有技术。如果你是NLP的新手，我真的认为你应该尝试一个更小、更有界的项目。请注意，“JNLP”与“NLP”无关。删除标记。