MOA CluStream:我们应该做什么;名称“;计算k均值后,不位于任何宏簇内的微簇?

MOA CluStream:我们应该做什么;名称“;计算k均值后,不位于任何宏簇内的微簇?,stream,cluster-analysis,k-means,moa,Stream,Cluster Analysis,K Means,Moa,我目前正在学习,我对结果有些怀疑。我会继续解释: 如果使用K均值对微簇进行聚类,我们都知道每个微簇将属于最近的宏簇(计算中心之间的欧几里德距离) 现在,查看以下示例结果: 我们可以看到,宏观集群并不是将所有的微观集群都分组 这是什么意思?我们应该如何考虑不存在于宏观集群内的微簇?我是否应该找到每个最接近宏的微集群来标记它们? 编辑: 检查MOA源代码,我发现宏簇半径是用偏差平均值乘以所谓的“半径因子”(该值固定在1.8)但是,当我询问宏簇的权重时,如果使用了一个巨大的时间窗口并且没有衰减分量,

我目前正在学习,我对结果有些怀疑。我会继续解释:

如果使用K均值对微簇进行聚类,我们都知道每个微簇将属于最近的宏簇(计算中心之间的欧几里德距离)

现在,查看以下示例结果:

我们可以看到,宏观集群并不是将所有的微观集群都分组

这是什么意思?我们应该如何考虑不存在于宏观集群内的微簇?我是否应该找到每个最接近宏的微集群来标记它们?

编辑: 检查MOA源代码,我发现宏簇半径是用偏差平均值乘以所谓的“半径因子”(该值固定在1.8)但是,当我询问宏簇的权重时,如果使用了一个巨大的时间窗口并且没有衰减分量,我可以看到宏簇恢复了所有点的信息考虑所有当前的微集群!所以,即使我们看到一些微团簇远离宏观团簇球体,我们也知道它们属于最近的一个——毕竟这是K的意思

所以,我仍然有一个问题:为什么要这样计算宏簇半径?我是说,它代表什么算法是否应该返回标记的微集群?


欢迎任何反馈。蒂亚

关键问题是:用户需要什么

标记微集群是可以的,但是用户的用途在哪里呢

在大多数情况下,人们使用的k-均值结果都是聚类中心。因为k-means的整个目标本质上是“找到数据的最佳k点近似”

因此,CluStream的所有信息用户都将使用k个当前的集群中心。也许是每个人的体重和年龄