Statistics 基于概率的密度聚类数据集及可能的聚类验证方法_Statistics_Dataset_Cluster Analysis_Probability_Survey

Statistics 基于概率的密度聚类数据集及可能的聚类验证方法

statistics

Statistics 基于概率的密度聚类数据集及可能的聚类验证方法,statistics,dataset,cluster-analysis,probability,survey,Statistics,Dataset,Cluster Analysis,Probability,Survey,有谁能帮我找到一个数据集，该数据集的分数作为属性值，并带有类标签（聚类验证的基本事实）。我想找到每个数据项的概率，并使用它进行聚类首选属性值是每个属性的用户调查分数（1-差、2-满意、3-好、4-非常好）。我更喜欢分数值（比如1,2,3,4）作为属性值，因为很容易从这些分数值计算每个属性值的概率我从UCI存储库中找到了一些数据集，但并非所有属性值都是分数值。大多数（如果不是全部的话）聚类算法都是基于密度的有大量关于聚类算法的调查文献需要检查。有数百种基于密度的算法，包括DBSCAN、光学、

有谁能帮我找到一个数据集，该数据集的分数作为属性值，并带有类标签（聚类验证的基本事实）。我想找到每个数据项的概率，并使用它进行聚类

首选属性值是每个属性的用户调查分数（1-差、2-满意、3-好、4-非常好）。我更喜欢分数值（比如1,2,3,4）作为属性值，因为很容易从这些分数值计算每个属性值的概率

我从UCI存储库中找到了一些数据集，但并非所有属性值都是分数值。

大多数（如果不是全部的话）聚类算法都是基于密度的

有大量关于聚类算法的调查文献需要检查。有数百种基于密度的算法，包括DBSCAN、光学、DENCLUE等

然而，我的印象是，你使用的术语“基于密度”与文学不同。你似乎指的是概率，而不是密度

不要期望集群给出类标签。类不是集群。类可以是不可分割的，或者单个类可以由多个集群组成。例如，著名的虹膜数据集直观上只包含2个簇（但有3个类）

对于评估和所有这些，检查现有的问题和答案，请

我还想得到关于以下问题的建议……我的目标是在这样的数据集上应用基于密度的聚类。我假设内部集群验证指标（如内聚和分离）在这种基于密度的方法上不会显示出好的结果，而且我发现集群作为一种探索性方法不会给出正确的类标签。因此，我应该使用哪种方法来评估这种集群产生的集群。我对集群/验证方法的理解是否有任何错误？请您解释为什么集群标签和类标签不同。如果它们不同，我们不能使用类标签计算外部集群验证参数，是这样吗？您可以使用随机数计算外部验证参数。。。它将返回一个结果；但是，结果可能没有标记真实集群那样有用。我并不是说集群与类是正交的，但并不一定有1:1的对应关系。聚类评估是一种黑魔法。类标签是迄今为止我们发现的最好的。