Statistics 基于概率的密度聚类数据集及可能的聚类验证方法

Statistics 基于概率的密度聚类数据集及可能的聚类验证方法,statistics,dataset,cluster-analysis,probability,survey,Statistics,Dataset,Cluster Analysis,Probability,Survey,有谁能帮我找到一个数据集,该数据集的分数作为属性值,并带有类标签(聚类验证的基本事实)。我想找到每个数据项的概率,并使用它进行聚类 首选属性值是每个属性的用户调查分数(1-差、2-满意、3-好、4-非常好)。我更喜欢分数值(比如1,2,3,4)作为属性值,因为很容易从这些分数值计算每个属性值的概率 我从UCI存储库中找到了一些数据集,但并非所有属性值都是分数值。大多数(如果不是全部的话)聚类算法都是基于密度的 有大量关于聚类算法的调查文献需要检查。有数百种基于密度的算法,包括DBSCAN、光学、

有谁能帮我找到一个数据集,该数据集的分数作为属性值,并带有类标签(聚类验证的基本事实)。我想找到每个数据项的概率,并使用它进行聚类

首选属性值是每个属性的用户调查分数(1-差、2-满意、3-好、4-非常好)。我更喜欢分数值(比如1,2,3,4)作为属性值,因为很容易从这些分数值计算每个属性值的概率

我从UCI存储库中找到了一些数据集,但并非所有属性值都是分数值。

大多数(如果不是全部的话)聚类算法都是基于密度的

有大量关于聚类算法的调查文献需要检查。有数百种基于密度的算法,包括DBSCAN、光学、DENCLUE等

然而,我的印象是,你使用的术语“基于密度”与文学不同。你似乎指的是概率,而不是密度

不要期望集群给出类标签。类不是集群。类可以是不可分割的,或者单个类可以由多个集群组成。例如,著名的虹膜数据集直观上只包含2个簇(但有3个类)


对于评估和所有这些,检查现有的问题和答案,请

我还想得到关于以下问题的建议……我的目标是在这样的数据集上应用基于密度的聚类。我假设内部集群验证指标(如内聚和分离)在这种基于密度的方法上不会显示出好的结果,而且我发现集群作为一种探索性方法不会给出正确的类标签。因此,我应该使用哪种方法来评估这种集群产生的集群。我对集群/验证方法的理解是否有任何错误?请您解释为什么集群标签和类标签不同。如果它们不同,我们不能使用类标签计算外部集群验证参数,是这样吗?您可以使用随机数计算外部验证参数。。。它将返回一个结果;但是,结果可能没有标记真实集群那样有用。我并不是说集群与类是正交的,但并不一定有1:1的对应关系。聚类评估是一种黑魔法。类标签是迄今为止我们发现的最好的。