Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/335.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用fastcluster模块在Python中进行新闻聚类_Python_Scipy_Hierarchical Clustering - Fatal编程技术网

使用fastcluster模块在Python中进行新闻聚类

使用fastcluster模块在Python中进行新闻聚类,python,scipy,hierarchical-clustering,Python,Scipy,Hierarchical Clustering,我正在尝试用Python编写一个新闻聚合器。我获取新闻文章,制作术语文档矩阵,然后在scipy和fascluster模块的帮助下使用余弦相似性对它们进行聚类: 当我有30个左右的新闻来源时,效果非常好。但是,当我把大约70个不同的来源放在一起的时候,它并没有很好地聚集在一起。我试图规范化术语文档矩阵,我也尝试了tf idf矩阵,但我仍然有相同的结果。你知道如何解决这个问题吗?在计算tf idf之前,你有没有尝试过去掉停止词?是的,我从一开始就删除了停止词。我也只使用出现在3篇以上文章中的词,在不

我正在尝试用Python编写一个新闻聚合器。我获取新闻文章,制作术语文档矩阵,然后在scipy和fascluster模块的帮助下使用余弦相似性对它们进行聚类:


当我有30个左右的新闻来源时,效果非常好。但是,当我把大约70个不同的来源放在一起的时候,它并没有很好地聚集在一起。我试图规范化术语文档矩阵,我也尝试了tf idf矩阵,但我仍然有相同的结果。你知道如何解决这个问题吗?

在计算tf idf之前,你有没有尝试过去掉停止词?是的,我从一开始就删除了停止词。我也只使用出现在3篇以上文章中的词,在不到70%的文章中,你可以尝试LSA向量()上的余弦相似性,而不是tf idf。像LDA这样的主题模型可能会更好。谢谢,似乎值得一看
distance = spatial.distance.pdist(wordmatrix,'cosine')
linkage = fastcluster.linkage(distance,method="complete")