Machine learning 当聚集3个以上的文档时，Kmeans的速度异常缓慢_Machine Learning_Cluster Analysis_Document_K Means

Machine learning 当聚集3个以上的文档时，Kmeans的速度异常缓慢

machine-learning

Machine learning 当聚集3个以上的文档时，Kmeans的速度异常缓慢,machine-learning,cluster-analysis,document,k-means,Machine Learning,Cluster Analysis,Document,K Means,我正在尝试使用kmeans将相似的文档彼此集群我正在使用NLTK的KMeans 当我只对3个文档进行集群时，只需要不到5秒的时间。但是，一旦我添加了第四个文档，它就没有完成（我在10分钟后将其删除）当有4个文档时，向量大小约为1000。向量也是稀疏的，但我有8吉比特的RAM，所以我不担心这一点。1000不应该那么多有人知道为什么它能在5秒内解决3个文档，但却不能在放弃之前至少10分钟内解决4个文档吗？当我投入生产时，理论上它必须一次聚集300或400个文档我想尝试另一个kmeans库，看

我正在尝试使用kmeans将相似的文档彼此集群

我正在使用NLTK的KMeans

当我只对3个文档进行集群时，只需要不到5秒的时间。但是，一旦我添加了第四个文档，它就没有完成（我在10分钟后将其删除）

当有4个文档时，向量大小约为1000。向量也是稀疏的，但我有8吉比特的RAM，所以我不担心这一点。1000不应该那么多

有人知道为什么它能在5秒内解决3个文档，但却不能在放弃之前至少10分钟内解决4个文档吗？当我投入生产时，理论上它必须一次聚集300或400个文档

我想尝试另一个kmeans库，看看NLTK实现是否很弱，但如果我是问题所在，我不想浪费我的精力

谢谢大家。

我切换到Pycluster库，它现在可以工作了。

您至少应该提供问题代码。