Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/326.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 有没有信息理论可以帮助我在不进行目视检查的情况下对数据集进行聚类?_Python_Machine Learning_Scikit Learn_Information Theory - Fatal编程技术网

Python 有没有信息理论可以帮助我在不进行目视检查的情况下对数据集进行聚类?

Python 有没有信息理论可以帮助我在不进行目视检查的情况下对数据集进行聚类?,python,machine-learning,scikit-learn,information-theory,Python,Machine Learning,Scikit Learn,Information Theory,我想对庞大的数据集进行聚类,但瓶颈是参数调整,而不进行目视检查 例:K-表示 如果我有N个样本,我不应该尝试从1到N个集群,对吗?这太残忍了 但我应该尝试的范围是什么?从1到N/4?还是N/8?还是斜率变化率 换言之,如何在不检查肘点的情况下确定簇的数目 例如:DBSCAN 接下来,选择k-距离,但是有没有理论可以帮助我确定k的范围 有人说用k-nn来帮助DBSCAN,但是k-nn的k是一个复杂的问题。我应该如何选择k的范围 我想从上面寻求帮助 任何人都有经验对数据集进行聚类,并找到一个较近的点

我想对庞大的数据集进行聚类,但瓶颈是参数调整,而不进行目视检查

例:
K-表示

如果我有N个样本,我不应该尝试从1到N个集群,对吗?这太残忍了

但我应该尝试的范围是什么?从1到N/4?还是N/8?还是斜率变化率

换言之,如何在不检查肘点的情况下确定簇的数目

例如:
DBSCAN

接下来,选择k-距离,但是有没有理论可以帮助我确定k的范围

有人说用k-nn来帮助DBSCAN,但是k-nn的k是一个复杂的问题。我应该如何选择k的范围

我想从上面寻求帮助


任何人都有经验对数据集进行聚类,并找到一个较近的点(无需非常精确)
来决定参数,而无需目视检查

使用弯头法:

对k个簇执行k均值,计算每个点与其所属簇中心的距离之和。(Sklearn中的惯性属性)。绘制不同k值的曲线图,对于某些k值,应该看不到任何改进(这是弯头)

  • 这里有一种解释:

使用弯头法:

对k个簇执行k均值,计算每个点与其所属簇中心的距离之和。(Sklearn中的惯性属性)。绘制不同k值的曲线图,对于某些k值,应该看不到任何改进(这是弯头)

  • 这里有一种解释: