Tensorflow Isn';对测试集应用最小-最大缩放是否有危险?

Tensorflow Isn';对测试集应用最小-最大缩放是否有危险?,tensorflow,machine-learning,deep-learning,data-science,Tensorflow,Machine Learning,Deep Learning,Data Science,这就是我担心的情况 假设我有一个用最小-最大比例数据训练的模型。我想测试我的模型,所以我还用我在训练阶段使用的旧定标器缩放了测试数据集。然而,我的新测试数据是新的最小值,所以定标器返回负值 据我所知,最小值和最大值并不是那么稳定的值,特别是在不稳定的数据集中,如加密货币数据。在这种情况下,我应该更新我的定标器吗?或者我应该重新训练我的模型吗?理想情况下,你应该先缩放,然后只分为测试和训练。但是,在实时场景中,对具有动态变化的最小值和最大值并具有显著差异的数据使用最小-最大定标器并不可取。我恰好不

这就是我担心的情况

假设我有一个用最小-最大比例数据训练的模型。我想测试我的模型,所以我还用我在训练阶段使用的旧定标器缩放了测试数据集。然而,我的新测试数据是新的最小值,所以定标器返回负值


据我所知,最小值和最大值并不是那么稳定的值,特别是在不稳定的数据集中,如加密货币数据。在这种情况下,我应该更新我的定标器吗?或者我应该重新训练我的模型吗?

理想情况下,你应该先缩放,然后只分为测试和训练。但是,在实时场景中,对具有动态变化的最小值和最大值并具有显著差异的数据使用最小-最大定标器并不可取。

我恰好不同意@Sharan_Sundar。缩放的目的是将所有功能放在一个单一的比例上,而不是严格地确保它们位于间隔[0,1]内。这可能非常重要,特别是在考虑正则化技术时,惩罚较大的系数(无论是线性回归系数还是神经网络权重)。特征缩放和正则化的组合有助于确保您的模型可以概括为未观测到的数据

根据“测试”数据进行缩放不是一个好主意,因为在实践中,正如您所指出的,您可以轻松地观察到新的数据点,而这些数据点不在原始观察值的范围内。您的模型需要对此保持稳健

一般来说,我建议考虑不同的缩放例程。scikitlearn的MinMaxScaler是一个,StandardScaler(减去平均值,除以标准偏差)也是一个。如果您的目标变量cryptocurrency价格可以在多个数量级上变化,那么使用对数函数来缩放某些变量可能是值得的。这就是数据科学成为一门艺术的地方——这里不一定有“正确”的答案

(编辑)-另请参见:

不是编程问题;有关ML方法的问题应提交至。