Machine learning 演化环境中在线集群的流规范化 TL;DR:如果整个数据集都不可用,并且您正在处理针对不断变化的环境的集群,那么如何规范化流数据

Machine learning 演化环境中在线集群的流规范化 TL;DR:如果整个数据集都不可用,并且您正在处理针对不断变化的环境的集群,那么如何规范化流数据,machine-learning,stream,cluster-analysis,normalization,online-machine-learning,Machine Learning,Stream,Cluster Analysis,Normalization,Online Machine Learning,嗨!我目前正在研究非平稳数据流的动态聚类。我需要规范化数据,因为所有特征在最终的聚类中都应该具有相同的影响,但我不知道如何做 我需要应用标准规范化。我最初的做法是: 用初始数据点填充缓冲区 使用这些数据点获得平均值和标准偏差 使用这些度量标准化当前数据点 逐个发送标准化为算法的点 使用前面的度量值在一段时间内保持对传入数据点的规范化 每隔一段时间再次计算平均值和标准偏差 用新的度量值表示当前的微集群质心(使用旧的度量值,返回并重新正常化应该不是问题) 使用新措施在一段时间内保持对传入数据点的规范

嗨!我目前正在研究非平稳数据流的动态聚类。我需要规范化数据,因为所有特征在最终的聚类中都应该具有相同的影响,但我不知道如何做

我需要应用标准规范化。我最初的做法是:

  • 初始数据点填充缓冲区
  • 使用这些数据点获得平均值和标准偏差
  • 使用这些度量标准化当前数据点
  • 逐个发送标准化为算法的点
  • 使用前面的度量值在一段时间内保持对传入数据点的规范化
  • 每隔一段时间再次计算平均值和标准偏差
  • 用新的度量值表示当前的微集群质心(使用旧的度量值,返回并重新正常化应该不是问题)
  • 使用新措施在一段时间内保持对传入数据点的规范化
  • 等等 问题是,数据规范化不应该涉及到聚类算法的功能。。。我的意思是,你不能告诉聚类算法“好的,你现在拥有的微集群需要用这个新的均值和stdev标准化”。。。我的意思是,我可以做到这一点,但我也在使用现有的算法,我觉得修改它们来做到这一点是不对的

    有什么想法吗


    TIA

    随着越来越多的数据流进入,估计的标准化参数(例如,平均值和标准差)被更新并进一步收敛到真实值[,。在不断变化的环境中,这一点更加明显,因为数据分布现在也是时变的[]。因此,使用最新估计的标准化参数进行标准化的最新流化样本更准确、更具代表性

    一种解决方案是通过在聚类算法的更新规则中嵌入一个新的衰减参数,将现在与过去的部分反射合并。它可以提高使用最新分布估计值标准化的最新样本的贡献。您可以在Apache Sparks M中看到这一思想的实现Lib[,]:


    其中α是新的衰减参数;较低的α使算法更倾向于最近的样本。

    数据规范化会影响依赖于L2距离的算法的聚类。因此,您无法真正获得问题的全局解决方案

    如果您的群集算法支持它,一个选项是以以下方式使用具有热启动的群集:

    • 在每个步骤中,使用根据新的平均值和标准偏差重新规范化的样本,从头开始找到“进化”的集群
    • 不要随机初始化集群,而是使用上一步中找到的集群,如新空间中所示

    你先对一部分数据进行拟合,然后对其进行变换。当你接收到剩余的观测值时,你只需“变换”它们。不再进行拟合,也不再进行均值和标准差计算。但你必须先有一些数据才能“拟合”首先。在这种情况下,你不必参与聚类算法的工作。嗨,耶海亚!谢谢你的评论。问题是我正在处理概念漂移:数据是已知的演变。因此,我必须在不同的窗口中不断测量统计数据,以查看演变。我认为没有其他选择,我将不得不这样做如果已知数据集是静止的,那么你的方法是非常适用的。再次感谢!!!那么你所采用的方法是绝对正确的。每次你收到x个数量的观测值时,你都需要重新拟合群集。祝你一切顺利。嗨!谢谢你的回答。我不明白下面的内容g:“数据规范化会影响依赖于L2距离的算法的聚类”。我的意思是,使用规范化是为了赋予所有特征相同的重要性(因为所有特征最终都处于相同的“尺度”)。也就是说,聚类时使用的距离度量并不重要。如果我弄错了,请纠正我。然后,当涉及到聚类方法时,学习是在线的,因此需要初始化一次。重新规范化新样本将与当前规范化的微聚类不一致。我认为没有选项but遵循我问题中提到的方法(我想删除该问题,但无法删除赏金)问题是,我不喜欢弄乱我使用的算法的实现,但是你必须这样做,以便用新的统计数据来重新描述微簇。我只是觉得MOA实现不考虑流“动态”规范化是奇怪的。如果你提到的MOA实现是USEN。g L2距离,然后,您可以调整代码以使用马氏距离并动态调整协方差矩阵,而不是规范化样本。这将允许您不更改样本的坐标。但请注意,这并不能解决可能尚未创建的集群的概念问题如果提供给算法的样本顺序不同。您好!感谢您的回答。我喜欢为新样本赋予更多权重的想法。但是,似乎没有办法修改现有的流聚类算法实现(如MOA提供的实现)来更改r