Machine learning 我在哪里可以找到一组好的带有地面真相标签的基准聚类数据集?

Machine learning 我在哪里可以找到一组好的带有地面真相标签的基准聚类数据集?,machine-learning,dataset,cluster-analysis,benchmarking,hierarchical-clustering,Machine Learning,Dataset,Cluster Analysis,Benchmarking,Hierarchical Clustering,我正在寻找一个聚类数据集与“地面真相”标签为一些已知的自然聚类,最好与高维 我在这里找到了一些很好的候选者(),但只有Glass和Iris数据集有点的标签。我还发现了一些生成高斯数据集(SynDECA)的代码。我希望这样做的主要原因是比较一些聚类方法的距离度量。很难使用外部(外在)评估标准,因为许多评估标准偏向于欧几里得距离;有那么多可供选择的 谢谢 除了提到的和存储库之外,还有许多数据集。以下是其他集群基准聚合器的列表: (FCPS) (蜥蜴,变色龙) (国际单项体育联合会) (托马斯·巴顿

我正在寻找一个聚类数据集与“地面真相”标签为一些已知的自然聚类,最好与高维

我在这里找到了一些很好的候选者(),但只有Glass和Iris数据集有点的标签。我还发现了一些生成高斯数据集(SynDECA)的代码。我希望这样做的主要原因是比较一些聚类方法的距离度量。很难使用外部(外在)评估标准,因为许多评估标准偏向于欧几里得距离;有那么多可供选择的


谢谢

除了提到的和存储库之外,还有许多数据集。

以下是其他集群基准聚合器的列表:

  • (FCPS)
  • (蜥蜴,变色龙)
  • (国际单项体育联合会)
  • (托马斯·巴顿的仓库)
  • (数据世界)
  • (马雷克·加戈列夫斯基的知识库)

谢谢您的回复。我已经很快地查看了这个repo,但是找不到具有“已知”自然聚类的数据集。你有分类数据集;但是共享一个类的数据可能不在同一个集群中。我需要的是一个已经生成的或已知包含内在“正确”聚类的数据集(如Iris或Glass集)。类似于属性1…属性n,然后是一个附加列,表示Cluster#。老实说,我不确定这些数据是否真的存在;由于“正确”的聚类往往是主观的(特别是对于高清数据),我不得不同意你想要的可能不是真实的东西。当我想到“正确的聚类”时,在我看来,这相当于一个分类问题。聚类!=上课。大多数情况下,类中都会有集群,而类又可能是集群。考虑虹膜数据集:两个虹膜物种清楚地聚类。@安尼-慕斯,但是,如果你有一组“正确”的聚类,在某种意义上,这是基于一些未包含在预测器中的观察到的特征,这不是一个簇而是一个类,不是吗?也许我没有正确理解用户3457088的要求。我也不知道有人在任何数据集上标记实际集群。通常,标记是面向目标的(即类),与其说是观察,不如说是“这些对象似乎比其他对象更密切相关”,即使其他对象具有相同的功能。为什么外部度量应该偏向于欧几里得距离?对于凸面簇,内部有偏向。