Java 根据kmeans算法中的属性命名集群_Java_Cluster Analysis_Weka_K Means

Java 根据kmeans算法中的属性命名集群

java

Java 根据kmeans算法中的属性命名集群,java,cluster-analysis,weka,k-means,Java,Cluster Analysis,Weka,K Means,我正在使用kmeans算法将我的实例分为不同的组。我用java编写了一个简单的代码，它接收arff文件，每个实例被分类到不同的集群中，集群的数量最初由我给出我的输出以以下格式生成： Instance 0-> Cluster 1 Instance 1-> Cluster 3 etc 是否有任何方法可以基于单个属性为集群命名假设我的arff文件是： @relation links @attribute num1 numeric @attri

我正在使用kmeans算法将我的实例分为不同的组。我用java编写了一个简单的代码，它接收arff文件，每个实例被分类到不同的集群中，集群的数量最初由我给出

我的输出以以下格式生成：

Instance 0-> Cluster 1
Instance 1-> Cluster 3      etc

是否有任何方法可以基于单个属性为集群命名

假设我的arff文件是：

@relation links        
@attribute num1 numeric        
@attribute num2 numeric        
@attribute num3 numeric        
@attribute data string    

@data

0,0,5,a    
1,0,0,b    
1,0,0,a    
1,1,0,a etc

我希望使用这些属性和基于数据属性的名称来形成集群

因此，输出应为：

Instance 0-. cluster a    
Instance 1-> cluster b

关于如何做到这一点，你有什么想法吗？

不要试图把所有东西都混合到一个过程中

数据挖掘自然是一个多步骤的过程。一些重要步骤是前后处理

看起来您想对数据进行后期处理，并报告每个群集的最常见标签。

那么您的数据是预群集的吗？那么为什么要使用k-均值呢？不，它不是预聚类的。在簇形成过程中忽略标称值。我想基于numerica属性进行聚类，并基于标称属性命名聚类。它是这样的，假设我有20个具有a或b属性的实例，并且在集群1和2中形成了两个集群：我们看看a或b是否具有最多的实例，并相应地将其命名为。啊，我明白了。在这种情况下，您最好的选择是后期处理；处理后，运行每个集群的实例，并计算每个类型的数量。感谢您计划这样做！我想知道是否还有其他方法！：）