Machine learning 当聚集3个以上的文档时,Kmeans的速度异常缓慢

Machine learning 当聚集3个以上的文档时,Kmeans的速度异常缓慢,machine-learning,cluster-analysis,document,k-means,Machine Learning,Cluster Analysis,Document,K Means,我正在尝试使用kmeans将相似的文档彼此集群 我正在使用NLTK的KMeans 当我只对3个文档进行集群时,只需要不到5秒的时间。但是,一旦我添加了第四个文档,它就没有完成(我在10分钟后将其删除) 当有4个文档时,向量大小约为1000。向量也是稀疏的,但我有8吉比特的RAM,所以我不担心这一点。1000不应该那么多 有人知道为什么它能在5秒内解决3个文档,但却不能在放弃之前至少10分钟内解决4个文档吗?当我投入生产时,理论上它必须一次聚集300或400个文档 我想尝试另一个kmeans库,看

我正在尝试使用kmeans将相似的文档彼此集群

我正在使用NLTK的KMeans

当我只对3个文档进行集群时,只需要不到5秒的时间。但是,一旦我添加了第四个文档,它就没有完成(我在10分钟后将其删除)

当有4个文档时,向量大小约为1000。向量也是稀疏的,但我有8吉比特的RAM,所以我不担心这一点。1000不应该那么多

有人知道为什么它能在5秒内解决3个文档,但却不能在放弃之前至少10分钟内解决4个文档吗?当我投入生产时,理论上它必须一次聚集300或400个文档

我想尝试另一个kmeans库,看看NLTK实现是否很弱,但如果我是问题所在,我不想浪费我的精力


谢谢大家。

我切换到Pycluster库,它现在可以工作了。

您至少应该提供问题代码。