Machine learning 属性依赖于集群id的分类器

Machine learning 属性依赖于集群id的分类器,machine-learning,classification,cluster-analysis,k-means,naivebayes,Machine Learning,Classification,Cluster Analysis,K Means,Naivebayes,我有一个分类问题,其中我有一组组成我的数据点的块。我可以用于块分类的属性之一是标记,它本质上是另一个块的块编号。块还具有可用于分类的其他属性(大小)。我的数据集中的“标记”属性可用于如下分类-如果两个块具有属于同一簇的两个标记(块编号),则块或数据点应聚集在一起。在这里,我事先不知道标签号将是什么群集号 Block 1 [Tag 4] size 10 Block 2 [Tag 3] size 20 Block 3 [Tag 1] size 100 Block 4 [Tag 2] size 110

我有一个分类问题,其中我有一组组成我的数据点的块。我可以用于块分类的属性之一是标记,它本质上是另一个块的块编号。块还具有可用于分类的其他属性(大小)。我的数据集中的“标记”属性可用于如下分类-如果两个块具有属于同一簇的两个标记(块编号),则块或数据点应聚集在一起。在这里,我事先不知道标签号将是什么群集号

Block 1 [Tag 4] size 10
Block 2 [Tag 3] size 20
Block 3 [Tag 1] size 100
Block 4 [Tag 2] size 110
这里,基于标记属性,块1和块2分别标记块3和4。此外,块3和块4分别标记块2和块1。因此,块1、块2可以属于集群id 1,块3和块4可以属于集群id 2。此外,块1,2的尺寸比块3,4的尺寸更相似。分类的最终结果应该是

cluster id 1: Block 1 , Block 2
cluster id 2: Block 3 , Block 4
有没有办法对这些数据点进行分类?据我所知,朴素贝叶斯分类器认为每个属性彼此独立。这里,属性(标记)取决于将来的事件(标记的块号将属于的簇id)。我应该寻找什么样的聚类算法来解决这个问题? 我可以想到的一种方法是使用其他属性(如大小)运行k-means,然后当我大致知道集群id时,我将该集群id添加到标记中,并将其用作分类属性。在属性依赖于结果簇本身的情况下,是否有其他更好的方法来编写分类器?
任何帮助都将不胜感激。

这个目标没有意义

您的四个块和标记构成一个循环:

1 -> 4 -> 2 -> 3 -> 1
为什么将其分为两组,1+2和3+4是有意义的


k-means和其他算法在这里没有多大帮助。你需要找到一些好的解决方案的形式属性;然后找到一个算法来优化这个属性。k-means将sqaured偏差最小化-这将如何帮助解决您的问题?

聚类和分类标签是否相同?请你澄清一下(例如用一个例子)?这是一个例子,巧合的是它形成了一个循环。将其视为一个二部图,其中(1,2)在一个簇中,(3,4)在另一个簇中,边从一个簇到另一个簇。k-means很有用,因为size属性可用于将块分类为簇。但是,标记属性是未来的事件,不能预先使用。目前,我首先使用大小将块分类到簇中,然后根据它们所属的簇使用标记。这给了我不错的结果,但我希望得到更精确的结果,因为我的标记属性是数据集中最容易区分的属性。