Cluster analysis rapidminer:集群性能操作符..不同的值意味着什么?

Cluster analysis rapidminer:集群性能操作符..不同的值意味着什么?,cluster-analysis,k-means,rapidminer,Cluster Analysis,K Means,Rapidminer,我必须在rapidminer中使用不同的性能操作符来检查各种集群算法的性能。为此,我想知道以下几点: cluster number index值显示哪些是cluster count性能运算符的输出 聚类距离内的平均值和质心距离内的平均值的大小在聚类的好坏方面意味着什么 我还想检查其他索引值,如Dunn索引、Jaccard索引、Fowlkes–Mallows,以了解各种聚类算法。但是rapidminer没有接线员,怎么办。我对R没有经验 我已经复制了我在Rapid-I论坛上发表的部分文章 clus

我必须在rapidminer中使用不同的性能操作符来检查各种集群算法的性能。为此,我想知道以下几点:

  • cluster number index值显示哪些是cluster count性能运算符的输出
  • 聚类距离内的平均值和质心距离内的平均值的大小在聚类的好坏方面意味着什么
  • 我还想检查其他索引值,如Dunn索引、Jaccard索引、Fowlkes–Mallows,以了解各种聚类算法。但是rapidminer没有接线员,怎么办。我对R没有经验
  • 我已经复制了我在Rapid-I论坛上发表的部分文章

    clusternumber索引是集群的计数——您可能会说它毫无意义,但是当与DBSCAN一起使用时,它可能会非常有趣

    聚类和质心距离内的平均值很难解释——在这种情况下,需要搜索的是“肘部标准”。随着集群数量的变化,请注意有效性度量是如何变化的,并寻找一个“肘”来标记度量的自然进展主导结构的点


    R有许多有效性度量,值得投入一些时间,因为您可以随时从RapidMiner调用R流程,这使您更容易了解发生了什么。

    您是否对RapidMiner中的某些内容感到困惑?“R”标签是用于RSTATS…考虑使用ELKI。如果您已经标记了数据,它将为您提供范围广泛的群集质量索引。