Nlp 文本相似性分组算法

Nlp 文本相似性分组算法,nlp,similarity,cosine-similarity,linguistics,Nlp,Similarity,Cosine Similarity,Linguistics,所以我在做一个项目,基于Chali在他的“文档聚类与分组和链接算法”研究论文中提出的分组算法 我已经到了第4.1节。我试图理解在寻找关于同一主题的文章的背景下,集群重叠意味着什么 我已经确定了文章之间的余弦相似性分数。e、 g 所以说第x条是一篇卫报文章 { 第1条-与第x条相比,cnn第0.1条的余弦分数(无阈值) 第2条-与第x条相比,cnn文章的余弦分数为0.8(插入高阈值聚类) 第3条-与第x条相比,cnn文章余弦0.5余弦分数(插入低阈值聚类) } 我的问题是,我是否正确识别了集群?例

所以我在做一个项目,基于Chali在他的“文档聚类与分组和链接算法”研究论文中提出的分组算法

我已经到了第4.1节。我试图理解在寻找关于同一主题的文章的背景下,集群重叠意味着什么

我已经确定了文章之间的余弦相似性分数。e、 g

所以说第x条是一篇卫报文章

{

第1条-与第x条相比,cnn第0.1条的余弦分数(无阈值)

第2条-与第x条相比,cnn文章的余弦分数为0.8(插入高阈值聚类)

第3条-与第x条相比,cnn文章余弦0.5余弦分数(插入低阈值聚类)

}

我的问题是,我是否正确识别了集群?例如,我可以将来自其他出版商的故事混合到这个集群中吗

当文章说“如果不超过两个文本与最后一组重叠,那么我们把这一组作为最后一组”。解释这一点对我来说也是非常困难的,就像我说的,我不确定“重叠”是什么意思

谢谢你的帮助