Machine learning 基于simplekmeans聚类的聚类质心
我目前正试图解释在Diabetes.arff数据集上运行SimpleKMeans聚类得到的一组结果 -链接到集群实例(图1) 到目前为止,我可以理解集群实例(图1)显示500个变量被分类为测试阴性,268个被分类为测试阳性 -链接到groundtruth值(图2) 当将这些值与地面真实值进行比较时,差异不大,因为正确的聚类应显示500个被分类为测试阴性,268个被分类为测试阳性。这在技术上意味着SimpleKMeans聚类方法适合于此数据集,因为它已正确地对实例进行分类Machine learning 基于simplekmeans聚类的聚类质心,machine-learning,cluster-analysis,weka,Machine Learning,Cluster Analysis,Weka,我目前正试图解释在Diabetes.arff数据集上运行SimpleKMeans聚类得到的一组结果 -链接到集群实例(图1) 到目前为止,我可以理解集群实例(图1)显示500个变量被分类为测试阴性,268个被分类为测试阳性 -链接到groundtruth值(图2) 当将这些值与地面真实值进行比较时,差异不大,因为正确的聚类应显示500个被分类为测试阴性,268个被分类为测试阳性。这在技术上意味着SimpleKMeans聚类方法适合于此数据集,因为它已正确地对实例进行分类 但是我不知道如何解释集群
但是我不知道如何解释集群质心表中的信息,在完整数据、集群0和集群1标题下。关于数据集,它们告诉了我们什么(图1)?在进行集群之前,应该删除class属性。它有太多的预测能力,因此,聚类算法有很强的偏向性,在内部更倾向于类属性 您可以通过单击“删除”按钮在“预处理”面板中删除属性,或者通过单击“忽略属性”在“群集”面板中删除属性,然后选择“类”属性 然后再次聚集。我建议从k=2开始,这是“class”属性的唯一值的数量。(然后检查簇指定是否与原始属性相对应,或者执行其他操作。) 顺便说一句,在我看来,你不是在研究“玻璃”数据集,而是在研究“糖尿病”数据集