Python sklearn集群:在大型数据集上确定最佳集群数量的最快方法
我在python中使用和from sklearn来计算集群,但是在>1000集群的>10.000个样本上,计算剪影_分数非常慢Python sklearn集群:在大型数据集上确定最佳集群数量的最快方法,python,scikit-learn,cluster-analysis,data-mining,bigdata,Python,Scikit Learn,Cluster Analysis,Data Mining,Bigdata,我在python中使用和from sklearn来计算集群,但是在>1000集群的>10.000个样本上,计算剪影_分数非常慢 是否有一种更快的方法来确定最佳集群数量 或者我应该改变聚类算法吗?如果是,对于样本数大于300.000且有大量聚类的数据集,哪种算法最好(也是最快的) 最常用的求聚类数的方法是肘部曲线法。但需要多次运行KMeans算法来绘制图形。wiki页面提到了一些确定集群数量的常用方法。轮廓分数,而其中一个更具吸引力的指标是iw O(n^2)。这意味着,计算分数比计算k-means
最常用的求聚类数的方法是肘部曲线法。但需要多次运行KMeans算法来绘制图形。wiki页面提到了一些确定集群数量的常用方法。轮廓分数,而其中一个更具吸引力的指标是iw O(n^2)。这意味着,计算分数比计算k-means聚类要昂贵得多
此外,这些分数只是试探法。它们无论如何都不会产生“最优”集群。他们只给出了一个关于如何选择k的提示,但是很多时候你会发现其他k更好!因此不要盲目地相信这些分数你也可以使用一种不需要聚类数作为输入的算法。DBSCAN或HDBSCAN应该可以很好地扩展到您的数据集大小。是否有一种方法可以使用弯肘曲线方法自动找到集群数量?据我所知,一个程序应该能够提供基于弯肘曲线启发式的集群数量。