使用fastcluster模块在Python中进行新闻聚类
我正在尝试用Python编写一个新闻聚合器。我获取新闻文章,制作术语文档矩阵,然后在scipy和fascluster模块的帮助下使用余弦相似性对它们进行聚类:使用fastcluster模块在Python中进行新闻聚类,python,scipy,hierarchical-clustering,Python,Scipy,Hierarchical Clustering,我正在尝试用Python编写一个新闻聚合器。我获取新闻文章,制作术语文档矩阵,然后在scipy和fascluster模块的帮助下使用余弦相似性对它们进行聚类: 当我有30个左右的新闻来源时,效果非常好。但是,当我把大约70个不同的来源放在一起的时候,它并没有很好地聚集在一起。我试图规范化术语文档矩阵,我也尝试了tf idf矩阵,但我仍然有相同的结果。你知道如何解决这个问题吗?在计算tf idf之前,你有没有尝试过去掉停止词?是的,我从一开始就删除了停止词。我也只使用出现在3篇以上文章中的词,在不
当我有30个左右的新闻来源时,效果非常好。但是,当我把大约70个不同的来源放在一起的时候,它并没有很好地聚集在一起。我试图规范化术语文档矩阵,我也尝试了tf idf矩阵,但我仍然有相同的结果。你知道如何解决这个问题吗?在计算tf idf之前,你有没有尝试过去掉停止词?是的,我从一开始就删除了停止词。我也只使用出现在3篇以上文章中的词,在不到70%的文章中,你可以尝试LSA向量()上的余弦相似性,而不是tf idf。像LDA这样的主题模型可能会更好。谢谢,似乎值得一看
distance = spatial.distance.pdist(wordmatrix,'cosine')
linkage = fastcluster.linkage(distance,method="complete")