Scikit learn K-均值度量_Scikit Learn_K Means

Scikit learn K-均值度量

scikit-learn

Scikit learn K-均值度量,scikit-learn,k-means,Scikit Learn,K Means,我已经通读了scikit学习文档，在谷歌上搜索也没用。我有2000个数据集，如图所示。如图所示，一些簇是错误的，这里是红色簇。我需要一个度量方法来验证所有2000个集群集。scikit learn中的几乎每一个指标都需要基本真相类标签，我认为我没有或可以有这样的标签。我有30天的每小时交通流量，我使用k-means对它们进行聚类。这些线是集群中心。我该怎么办？我走对了吗？！横轴是小时，0到23，纵轴是交通流，因此数据点表示30天内该小时的交通流，k=3 您是否查看了凝聚聚类，然后是改变度量的小节

我已经通读了scikit学习文档，在谷歌上搜索也没用。我有2000个数据集，如图所示。如图所示，一些簇是错误的，这里是红色簇。我需要一个度量方法来验证所有2000个集群集。scikit learn中的几乎每一个指标都需要基本真相类标签，我认为我没有或可以有这样的标签。我有30天的每小时交通流量，我使用k-means对它们进行聚类。这些线是集群中心。我该怎么办？我走对了吗？！横轴是小时，0到23，纵轴是交通流，因此数据点表示30天内该小时的交通流，k=3

您是否查看了凝聚聚类，然后是改变度量的小节：

对我来说，这似乎与您正在尝试做的非常相似。

SciKit learn没有任何方法，除了轮廓系数，用于内部评估，据我所知，我们可以针对此类问题实施DB指数Davies Bouldin和Dunn指数。本文为k-means提供了良好的指标：

剪影系数和Calinski-Harabaz指数都在scikit learn Novely中实现，当没有基本事实时，它们将帮助您评估聚类结果

详情如下：

在这里：

如果你没有基本事实，集群的验证就不是一个适定问题。那么，处理这种情况的正确方法是什么？错误是什么意思？而且，我也不太了解情节。这些点是什么意思？什么是单一数据点？这将需要改变集群系统…我相信一定有一个简单的方法围绕这个更新。scikit中已经有Davies Bouldin索引了解：