Matrix 非常大的稀疏矩阵上的聚类?

Matrix 非常大的稀疏矩阵上的聚类?,matrix,cluster-analysis,data-mining,sparse-matrix,k-means,Matrix,Cluster Analysis,Data Mining,Sparse Matrix,K Means,我试图在一个非常大的矩阵上做一些(k-means)聚类 矩阵约为500000行x 4000列,但非常稀疏(每行仅几个“1”值)。我想要大约2000个集群 我有两个问题: -有人能推荐一个开源平台或工具来实现这一点吗(可能使用k-means,可能使用更好的工具)? -如何最好地估计算法完成所需的时间?我试过一次weka,但几天后就放弃了这份工作,因为我不知道要花多少时间 谢谢 对于您的情况,我想您的问题只是输入的大小 我建议将“cluto”作为大型稀疏数据集的良好工具。 它是用C写的。我试过大约1

我试图在一个非常大的矩阵上做一些(k-means)聚类

矩阵约为500000行x 4000列,但非常稀疏(每行仅几个“1”值)。我想要大约2000个集群

我有两个问题: -有人能推荐一个开源平台或工具来实现这一点吗(可能使用k-means,可能使用更好的工具)? -如何最好地估计算法完成所需的时间?我试过一次weka,但几天后就放弃了这份工作,因为我不知道要花多少时间


谢谢

对于您的情况,我想您的问题只是输入的大小

我建议将“cluto”作为大型稀疏数据集的良好工具。 它是用C写的。我试过大约1700万行,大约400列。 而且它工作得很快


您可以在R中尝试sparcl包,它实现了稀疏k均值和层次聚类。难理解难理解难理解的

这是用于实时应用程序还是用于您自己的自我开发?请注意,sparcl在特征选择中是“稀疏”的,不会处理相似性矩阵的n^2存储。