Machine learning 数据科学缩放/标准化真实案例
Machine learning 数据科学缩放/标准化真实案例,machine-learning,normalization,scaling,data-science,Machine Learning,Normalization,Scaling,Data Science,在进行数据预处理时,建议进行缩放或标准化。当你手上有数据时,这很容易做到。你有所有的数据,可以马上做。但是,在模型构建和运行之后,第一个输入的数据是否需要缩放或标准化?如果需要,它只需要一行,如何缩放或规范化它?我们如何知道每个功能的最小值/最大值/平均值/标准差是多少?每个特征的最小值/最大值/平均值是多少
请告知是的,您需要对输入数据应用标准化,否则模型将预测无意义
您还必须保存在训练期间使用的标准化系数或来自训练数据的标准化系数。然后,您必须对传入数据应用相同的系数
例如,如果使用最小-最
在进行数据预处理时,建议进行缩放或标准化。当你手上有数据时,这很容易做到。你有所有的数据,可以马上做。但是,在模型构建和运行之后,第一个输入的数据是否需要缩放或标准化?如果需要,它只需要一行,如何缩放或规范化它?我们如何知道每个功能的最小值/最大值/平均值/标准差是多少?每个特征的最小值/最大值/平均值是多少
请告知是的,您需要对输入数据应用标准化,否则模型将预测无意义
您还必须保存在训练期间使用的标准化系数或来自训练数据的标准化系数。然后,您必须对传入数据应用相同的系数
例如,如果使用最小-最大规格化:
f_n=(f-最小值(f))/(最大值(f)-最小值(f))
然后您需要保存最小值(f)和最大值(f),以便对新数据执行标准化。是的,您需要对输入数据应用标准化,否则模型将预测无意义
您还必须保存在训练期间使用的标准化系数或来自训练数据的标准化系数。然后,您必须对传入数据应用相同的系数
例如,如果使用最小-最大规格化:
f_n=(f-最小值(f))/(最大值(f)-最小值(f))
然后,您需要保存最小值(f)和最大值(f),以便对新数据执行标准化。首先,您应该知道何时使用缩放和标准化
缩放-缩放只不过是将你的特征转换成可比的数量级。假设你有像个人收入这样的特征,并且你注意到有些特征的值为10^3,有些为10^6。现在如果你用这些特征建模你的问题,那么像KNN这样的算法,岭回归将赋予此类属性更高的权重。为了防止这种情况,您需要首先缩放功能。最小-最大缩放器是最常用的缩放工具之一
平均归一化-
如果在检查了特征的分布后,发现特征并非以零为中心,那么对于像svm这样的算法,目标函数已经假设了零均值和相同阶数方差,我们可能会在建模中遇到问题。因此,这里应该进行均值归一化
标准化-对于支持向量机、神经网络、逻辑回归等算法,特征方差的顺序必须相同。因此,我们为什么不将其设置为1。因此,在标准化过程中,我们将特征分布设置为零均值和单位方差
现在,让我们试着从培训和测试集的角度回答您的问题。
假设您正在50k数据集上训练模型,并在10k数据集上进行测试。
对于上述三种转换,标准方法表示,您应该将任何规范化器或定标器仅适配于训练数据集,并仅对测试数据集使用转换。
在我们的例子中,如果我们想使用标准化,那么我们将首先在50k训练数据集上安装标准化器,然后用于转换50k训练数据集和测试数据集
注意-我们不应该让标准化器适合测试数据集,我们将使用已经安装好的标准化器来转换测试数据集。首先,您应该知道何时使用缩放和标准化
缩放-缩放只不过是将你的特征转换成可比的数量级。假设你有像个人收入这样的特征,并且你注意到有些特征的值为10^3,有些为10^6。现在如果你用这些特征建模你的问题,那么像KNN这样的算法,岭回归将赋予此类属性更高的权重。为了防止这种情况,您需要首先缩放功能。最小-最大缩放器是最常用的缩放工具之一
平均归一化-
如果在检查了特征的分布后,发现特征并非以零为中心,那么对于像svm这样的算法,目标函数已经假设了零均值和相同阶数方差,我们可能会在建模中遇到问题。因此,这里应该进行均值归一化
标准化-对于支持向量机、神经网络、逻辑回归等算法,特征方差的顺序必须相同。因此,我们为什么不将其设置为1。因此,在标准化过程中,我们将特征分布设置为零均值和单位方差
现在,让我们试着从培训和测试集的角度回答您的问题。
假设您正在50k数据集上训练模型,并在10k数据集上进行测试。
对于上述三种转换,标准方法表示,您应该将任何规范化器或定标器仅适配于训练数据集,并仅对测试数据集使用转换。
在我们的例子中,如果我们想使用标准化,那么我们将首先在50k训练数据集上安装标准化器,然后用于转换50k训练数据集和测试数据集
注意-我们不应该让我们的标准化器适合测试数据集,而应该使用已经安装好的标准化器来转换测试数据集