Scikit learn K-均值度量

Scikit learn K-均值度量,scikit-learn,k-means,Scikit Learn,K Means,我已经通读了scikit学习文档,在谷歌上搜索也没用。我有2000个数据集,如图所示。如图所示,一些簇是错误的,这里是红色簇。我需要一个度量方法来验证所有2000个集群集。scikit learn中的几乎每一个指标都需要基本真相类标签,我认为我没有或可以有这样的标签。我有30天的每小时交通流量,我使用k-means对它们进行聚类。这些线是集群中心。我该怎么办?我走对了吗?!横轴是小时,0到23,纵轴是交通流,因此数据点表示30天内该小时的交通流,k=3 您是否查看了凝聚聚类,然后是改变度量的小节

我已经通读了scikit学习文档,在谷歌上搜索也没用。我有2000个数据集,如图所示。如图所示,一些簇是错误的,这里是红色簇。我需要一个度量方法来验证所有2000个集群集。scikit learn中的几乎每一个指标都需要基本真相类标签,我认为我没有或可以有这样的标签。我有30天的每小时交通流量,我使用k-means对它们进行聚类。这些线是集群中心。我该怎么办?我走对了吗?!横轴是小时,0到23,纵轴是交通流,因此数据点表示30天内该小时的交通流,k=3


您是否查看了凝聚聚类,然后是改变度量的小节:


对我来说,这似乎与您正在尝试做的非常相似。

SciKit learn没有任何方法,除了轮廓系数,用于内部评估,据我所知,我们可以针对此类问题实施DB指数Davies Bouldin和Dunn指数。本文为k-means提供了良好的指标:


剪影系数和Calinski-Harabaz指数都在scikit learn Novely中实现,当没有基本事实时,它们将帮助您评估聚类结果

详情如下:

在这里:

如果你没有基本事实,集群的验证就不是一个适定问题。那么,处理这种情况的正确方法是什么?错误是什么意思?而且,我也不太了解情节。这些点是什么意思?什么是单一数据点?这将需要改变集群系统…我相信一定有一个简单的方法围绕这个更新。scikit中已经有Davies Bouldin索引了解: