Stream 流数据的规范化方法

Stream 流数据的规范化方法,stream,machine-learning,data-mining,normalization,Stream,Machine Learning,Data Mining,Normalization,我正在使用Clustream算法,我发现我需要规范化我的数据。我决定使用min-max算法来实现这一点,但我认为通过这种方式,新数据对象的值将以不同的方式计算,因为min和max的值可能会发生变化。你认为我是对的吗?如果是,我应该使用哪种算法 规范化流数据时,需要使用序列集的统计特性。在流式处理过程中,只需将太大/太低的值剪切为最小/最大值。没有别的路了,你知道,这是一条小溪 但作为一种权衡,您可以不断收集所有数据的统计特性,并不时对模型进行重新训练,以适应不断变化的数据。我不知道Clustre

我正在使用Clustream算法,我发现我需要规范化我的数据。我决定使用min-max算法来实现这一点,但我认为通过这种方式,新数据对象的值将以不同的方式计算,因为min和max的值可能会发生变化。你认为我是对的吗?如果是,我应该使用哪种算法

规范化流数据时,需要使用序列集的统计特性。在流式处理过程中,只需将太大/太低的值剪切为最小/最大值。没有别的路了,你知道,这是一条小溪


但作为一种权衡,您可以不断收集所有数据的统计特性,并不时对模型进行重新训练,以适应不断变化的数据。我不知道Clustream,但在短时间的谷歌搜索后:这似乎是一种有助于进行这种权衡的算法。

相反,要基于整个数据计算全局最小最大值,可以使用基于滑动窗口的局部无规则化(例如,仅使用最后15秒的数据)。这种方法在信号和图像处理中是计算局部均值滤波器的常用方法


我希望它能帮助你。

嗨!我知道有点晚了,但现在我发现自己也有同样的问题。问题是,如果你使用滑动窗口,当前的微集群通过考虑旧的最小值和最大值的标准化来表示,它们的“尺度”与新元素不同,因为新元素的最小值和最大值不同。你是怎么处理的?我的意思是,你规范化了新的数据点,但考虑到旧的值,该算法管理的当前微集群是规范化的。。。您不能将新元素发送到算法,因为这样会不一致!