Machine learning 基于simplekmeans聚类的聚类质心_Machine Learning_Cluster Analysis_Weka

Machine learning 基于simplekmeans聚类的聚类质心

machine-learning

Machine learning 基于simplekmeans聚类的聚类质心,machine-learning,cluster-analysis,weka,Machine Learning,Cluster Analysis,Weka,我目前正试图解释在Diabetes.arff数据集上运行SimpleKMeans聚类得到的一组结果 -链接到集群实例（图1）到目前为止，我可以理解集群实例（图1）显示500个变量被分类为测试阴性，268个被分类为测试阳性 -链接到groundtruth值（图2）当将这些值与地面真实值进行比较时，差异不大，因为正确的聚类应显示500个被分类为测试阴性，268个被分类为测试阳性。这在技术上意味着SimpleKMeans聚类方法适合于此数据集，因为它已正确地对实例进行分类但是我不知道如何解释集群

我目前正试图解释在Diabetes.arff数据集上运行SimpleKMeans聚类得到的一组结果

-链接到集群实例（图1）

到目前为止，我可以理解集群实例（图1）显示500个变量被分类为测试阴性，268个被分类为测试阳性

-链接到groundtruth值（图2）

当将这些值与地面真实值进行比较时，差异不大，因为正确的聚类应显示500个被分类为测试阴性，268个被分类为测试阳性。这在技术上意味着SimpleKMeans聚类方法适合于此数据集，因为它已正确地对实例进行分类

但是我不知道如何解释集群质心表中的信息，在完整数据、集群0和集群1标题下。关于数据集，它们告诉了我们什么（图1）？

在进行集群之前，应该删除class属性。它有太多的预测能力，因此，聚类算法有很强的偏向性，在内部更倾向于类属性

您可以通过单击“删除”按钮在“预处理”面板中删除属性，或者通过单击“忽略属性”在“群集”面板中删除属性，然后选择“类”属性

然后再次聚集。我建议从k=2开始，这是“class”属性的唯一值的数量。（然后检查簇指定是否与原始属性相对应，或者执行其他操作。）

顺便说一句，在我看来，你不是在研究“玻璃”数据集，而是在研究“糖尿病”数据集