Python 句子语义相似性与频率

Python 句子语义相似性与频率,python,nlp,nltk,Python,Nlp,Nltk,我有一套逐字逐句的句子,我想做的是……如果两个句子有相同的意思,那么这些句子应该被原来的句子替换,然后,我要计算这些句子的频率 有没有一种方法可以在NLTK中实现?欢迎并感谢在这方面提出的任何建议。 我正在寻找NLP方法。 谢谢我找到了一些论文,也许能给你一些解决这个问题的方法。他们使用WordNet,这是一个可用于检查单词相似性的语料库,可在NLTK上获得: 科利、考特尼和拉达·米哈尔恰。“测量文本的语义相似性”,《ACL语义等价和蕴涵实证建模研讨会论文集》。计算语言学协会,2005年。 --

我有一套逐字逐句的句子,我想做的是……如果两个句子有相同的意思,那么这些句子应该被原来的句子替换,然后,我要计算这些句子的频率

有没有一种方法可以在NLTK中实现?欢迎并感谢在这方面提出的任何建议。 我正在寻找NLP方法。
谢谢

我找到了一些论文,也许能给你一些解决这个问题的方法。他们使用WordNet,这是一个可用于检查单词相似性的语料库,可在NLTK上获得:

  • 科利、考特尼和拉达·米哈尔恰。“测量文本的语义相似性”,《ACL语义等价和蕴涵实证建模研讨会论文集》。计算语言学协会,2005年。 -->在文本层面上翻译词与词之间的相似性,我相信你可以将其应用于句子。()

  • 句子间的语义相似性〉《心理语言学研究杂志》2.2(1973):137-151.->这是另一篇计算句子之间相似性分数的论文

  • 我只浏览了这两篇论文,但第一篇论文似乎是按顺序使用句法和语义相似性技术,而第二篇论文是并行使用的

  • 米勒、乔治A.和沃尔特G.查尔斯。“语义相似性的语境相关性”,《语言与认知过程》6.1(1991):1-28。-->这是一篇语言学论文,它可能会让你更好地理解如何比较句子的语义相似性,以防前两种方法不适用于你,你必须拿出自己的解决方案

  • 祝你好运,希望这对你有帮助

    >P>我会考虑使用一些更为新近的词/文档嵌入方法来解决句子相似度,如:

    • -最近,该实施已添加到RASA NLU中-
    • -这是与NLP任务相关的年度竞赛,语义-文本相似性也存在。这对你来说可能是一个很好的想法来源

    一方面,句子嵌入可以很容易地用来比较句子,另一方面,你可以对单词嵌入进行平均/汇总,得到一个完整的句子嵌入。为了比较句子向量,可以使用余弦相似性等度量

    Wordnet对于“单词”相似性来说可能不是个好主意。请参阅