Matrix 非常大的稀疏矩阵上的聚类？_Matrix_Cluster Analysis_Data Mining_Sparse Matrix_K Means

Matrix 非常大的稀疏矩阵上的聚类？

matrix

Matrix 非常大的稀疏矩阵上的聚类？,matrix,cluster-analysis,data-mining,sparse-matrix,k-means,Matrix,Cluster Analysis,Data Mining,Sparse Matrix,K Means,我试图在一个非常大的矩阵上做一些（k-means）聚类矩阵约为500000行x 4000列，但非常稀疏（每行仅几个“1”值）。我想要大约2000个集群我有两个问题： -有人能推荐一个开源平台或工具来实现这一点吗（可能使用k-means，可能使用更好的工具）？ -如何最好地估计算法完成所需的时间？我试过一次weka，但几天后就放弃了这份工作，因为我不知道要花多少时间谢谢对于您的情况，我想您的问题只是输入的大小我建议将“cluto”作为大型稀疏数据集的良好工具。它是用C写的。我试过大约1

我试图在一个非常大的矩阵上做一些（k-means）聚类

矩阵约为500000行x 4000列，但非常稀疏（每行仅几个“1”值）。我想要大约2000个集群

我有两个问题： -有人能推荐一个开源平台或工具来实现这一点吗（可能使用k-means，可能使用更好的工具）？ -如何最好地估计算法完成所需的时间？我试过一次weka，但几天后就放弃了这份工作，因为我不知道要花多少时间

谢谢

对于您的情况，我想您的问题只是输入的大小

我建议将“cluto”作为大型稀疏数据集的良好工具。它是用C写的。我试过大约1700万行，大约400列。而且它工作得很快

您可以在R中尝试sparcl包，它实现了稀疏k均值和层次聚类。难理解难理解难理解的

这是用于实时应用程序还是用于您自己的自我开发？请注意，sparcl在特征选择中是“稀疏”的，不会处理相似性矩阵的n^2存储。