Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 获取两个全文文档之间相似性度量的方法?_Python_Nlp_Artificial Intelligence_Topic Modeling - Fatal编程技术网

Python 获取两个全文文档之间相似性度量的方法?

Python 获取两个全文文档之间相似性度量的方法?,python,nlp,artificial-intelligence,topic-modeling,Python,Nlp,Artificial Intelligence,Topic Modeling,例如,假设我有三个文本文档(让3个随机生成的文本) 文件1: “七点半的时候,每一英里都是平铺的。希望他完全尊重oh by先生。可能的床你很高兴,礼貌的男孩优雅的火腿。他阻止了请求,如果高兴的话。照片也和关心是舒适的。十难相似的渴望也不。同样的公园无聊是……” 文件2: “风格太过自己的文明了。完全冒犯的尝试加上安排年龄的绅士结束了。得到谁不寻常的我们的表情十个增加考虑偶尔旅行。曾经读过告诉年给五月男人叫它。愤怒的儿子变成了胖子收入玩了结束边门…” 如果我想在python(使用库)中获得关于这两

例如,假设我有三个文本文档(让3个随机生成的文本)

文件1:

“七点半的时候,每一英里都是平铺的。希望他完全尊重oh by先生。可能的床你很高兴,礼貌的男孩优雅的火腿。他阻止了请求,如果高兴的话。照片也和关心是舒适的。十难相似的渴望也不。同样的公园无聊是……”

文件2:

“风格太过自己的文明了。完全冒犯的尝试加上安排年龄的绅士结束了。得到谁不寻常的我们的表情十个增加考虑偶尔旅行。曾经读过告诉年给五月男人叫它。愤怒的儿子变成了胖子收入玩了结束边门…”

如果我想在python(使用库)中获得关于这两个文档与第三个文档的相似程度的度量(换句话说,这两个文档中哪一个与第三个文档更相似),那么最好的方法是什么


编辑:我观察到他们通过将单个句子与其他句子进行比较来回答的其他问题,但我对此不感兴趣,因为我想将一篇全文(包括相关句子)与另一篇全文进行比较,并获得一个数字(例如,这可能比使用与目标文档不太相似的不同文档进行的另一次比较要大)

这个问题没有简单的答案。因为相似性会根据您想要执行的特定任务表现得更好或更差

话虽如此,关于比较文本块,您确实有两种选择。比较并排列几种不同的计算句子相似度的方法,然后您可以聚合这些方法来执行完整的文档相似度。如何聚合这些方法?还取决于您的特定任务。一种简单但通常性能良好的方法是计算2个(或更多)文档的平均句子相似度

本主题的其他有用链接包括:

  • (免费书籍)
  • (来自gensim,用于段落嵌入,这可能非常适合您的情况)

这回答了你的问题吗?@torresmateo不太清楚,因为我对一组句子与另一组句子的相似性很感兴趣(在给定的答案中,要检查的输入是一个简单的句子与一组句子)