Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/json/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python sklearn集群:在大型数据集上确定最佳集群数量的最快方法_Python_Scikit Learn_Cluster Analysis_Data Mining_Bigdata - Fatal编程技术网

Python sklearn集群:在大型数据集上确定最佳集群数量的最快方法

Python sklearn集群:在大型数据集上确定最佳集群数量的最快方法,python,scikit-learn,cluster-analysis,data-mining,bigdata,Python,Scikit Learn,Cluster Analysis,Data Mining,Bigdata,我在python中使用和from sklearn来计算集群,但是在>1000集群的>10.000个样本上,计算剪影_分数非常慢 是否有一种更快的方法来确定最佳集群数量 或者我应该改变聚类算法吗?如果是,对于样本数大于300.000且有大量聚类的数据集,哪种算法最好(也是最快的) 最常用的求聚类数的方法是肘部曲线法。但需要多次运行KMeans算法来绘制图形。wiki页面提到了一些确定集群数量的常用方法。轮廓分数,而其中一个更具吸引力的指标是iw O(n^2)。这意味着,计算分数比计算k-means

我在python中使用和from sklearn来计算集群,但是在>1000集群的>10.000个样本上,计算剪影_分数非常慢

  • 是否有一种更快的方法来确定最佳集群数量
  • 或者我应该改变聚类算法吗?如果是,对于样本数大于300.000且有大量聚类的数据集,哪种算法最好(也是最快的)

  • 最常用的求聚类数的方法是肘部曲线法。但需要多次运行KMeans算法来绘制图形。wiki页面提到了一些确定集群数量的常用方法。

    轮廓分数,而其中一个更具吸引力的指标是iw O(n^2)。这意味着,计算分数比计算k-means聚类要昂贵得多


    此外,这些分数只是试探法。它们无论如何都不会产生“最优”集群。他们只给出了一个关于如何选择k的提示,但是很多时候你会发现其他k更好!因此不要盲目地相信这些分数

    你也可以使用一种不需要聚类数作为输入的算法。DBSCAN或HDBSCAN应该可以很好地扩展到您的数据集大小。是否有一种方法可以使用弯肘曲线方法自动找到集群数量?据我所知,一个程序应该能够提供基于弯肘曲线启发式的集群数量。