Machine learning 属性依赖于集群id的分类器_Machine Learning_Classification_Cluster Analysis_K Means_Naivebayes

Machine learning 属性依赖于集群id的分类器

machine-learning

Machine learning 属性依赖于集群id的分类器,machine-learning,classification,cluster-analysis,k-means,naivebayes,Machine Learning,Classification,Cluster Analysis,K Means,Naivebayes,我有一个分类问题，其中我有一组组成我的数据点的块。我可以用于块分类的属性之一是标记，它本质上是另一个块的块编号。块还具有可用于分类的其他属性（大小）。我的数据集中的“标记”属性可用于如下分类-如果两个块具有属于同一簇的两个标记（块编号），则块或数据点应聚集在一起。在这里，我事先不知道标签号将是什么群集号 Block 1 [Tag 4] size 10 Block 2 [Tag 3] size 20 Block 3 [Tag 1] size 100 Block 4 [Tag 2] size 110

我有一个分类问题，其中我有一组组成我的数据点的块。我可以用于块分类的属性之一是标记，它本质上是另一个块的块编号。块还具有可用于分类的其他属性（大小）。我的数据集中的“标记”属性可用于如下分类-如果两个块具有属于同一簇的两个标记（块编号），则块或数据点应聚集在一起。在这里，我事先不知道标签号将是什么群集号

Block 1 [Tag 4] size 10
Block 2 [Tag 3] size 20
Block 3 [Tag 1] size 100
Block 4 [Tag 2] size 110

这里，基于标记属性，块1和块2分别标记块3和4。此外，块3和块4分别标记块2和块1。因此，块1、块2可以属于集群id 1，块3和块4可以属于集群id 2。此外，块1,2的尺寸比块3,4的尺寸更相似。分类的最终结果应该是

cluster id 1: Block 1 , Block 2
cluster id 2: Block 3 , Block 4

有没有办法对这些数据点进行分类？据我所知，朴素贝叶斯分类器认为每个属性彼此独立。这里，属性（标记）取决于将来的事件（标记的块号将属于的簇id）。我应该寻找什么样的聚类算法来解决这个问题？我可以想到的一种方法是使用其他属性（如大小）运行k-means，然后当我大致知道集群id时，我将该集群id添加到标记中，并将其用作分类属性。在属性依赖于结果簇本身的情况下，是否有其他更好的方法来编写分类器？

任何帮助都将不胜感激。

这个目标没有意义

您的四个块和标记构成一个循环：

1 -> 4 -> 2 -> 3 -> 1

为什么将其分为两组，1+2和3+4是有意义的

k-means和其他算法在这里没有多大帮助。你需要找到一些好的解决方案的形式属性；然后找到一个算法来优化这个属性。k-means将sqaured偏差最小化-这将如何帮助解决您的问题？

聚类和分类标签是否相同？请你澄清一下（例如用一个例子）？这是一个例子，巧合的是它形成了一个循环。将其视为一个二部图，其中（1,2）在一个簇中，（3,4）在另一个簇中，边从一个簇到另一个簇。k-means很有用，因为size属性可用于将块分类为簇。但是，标记属性是未来的事件，不能预先使用。目前，我首先使用大小将块分类到簇中，然后根据它们所属的簇使用标记。这给了我不错的结果，但我希望得到更精确的结果，因为我的标记属性是数据集中最容易区分的属性。