R 超大数据集的稀疏数据聚类

R 超大数据集的稀疏数据聚类,r,cluster-analysis,sparse-matrix,k-means,r-bigmemory,R,Cluster Analysis,Sparse Matrix,K Means,R Bigmemory,我试过使用 kmeansparse,来自sparcl包的内存不足错误 Biganalytics的bigkmeans出现了一个奇怪的错误:在网上找不到任何东西;重复中出错。defaultcenters[[lengthcenters]]: 重复仅适用于向量 来自skmean的skmean表示与kmeans类似的结果 但我仍然无法为我的稀疏数据获得适当的聚类。集群没有很好的定义,大多数情况下都有重叠的成员资格。我是否在处理稀疏数据方面遗漏了什么? 建议对数据进行何种预处理?缺少的值是否应标记为-1而不

我试过使用

kmeansparse,来自sparcl包的内存不足错误 Biganalytics的bigkmeans出现了一个奇怪的错误:在网上找不到任何东西;重复中出错。defaultcenters[[lengthcenters]]: 重复仅适用于向量 来自skmean的skmean表示与kmeans类似的结果 但我仍然无法为我的稀疏数据获得适当的聚类。集群没有很好的定义,大多数情况下都有重叠的成员资格。我是否在处理稀疏数据方面遗漏了什么?
建议对数据进行何种预处理?缺少的值是否应标记为-1而不是0以明确区分?如果您有任何有用的想法,请随时询问更多详细信息。

K-means或稀疏数据聚类从来都不适合我。你可能期望过高。该算法是为连续密集数据设计的……您对稀疏数据的分类有什么建议吗?使用标记数据和线性支持向量机。这是众所周知的运作良好。