Machine learning 预处理数据:在回归中规范化数据标签?

Machine learning 预处理数据:在回归中规范化数据标签?,machine-learning,regression,normalization,Machine Learning,Regression,Normalization,最近我被告知回归数据的标签也应该标准化以获得更好的结果,但我对此相当怀疑。我从未尝试过在回归和分类中规范化标签,这就是为什么我不知道这种状态是否正确。关于这个问题,你能给我一个明确的解释(数学上或经验上)吗 非常感谢你。 任何帮助都将不胜感激。当你说“规范化”标签时,不清楚你的意思(即,你是指统计意义上的还是其他意义上的)。你能举个例子吗 在数据分析中统一标签 如果您正试图整理标签以便与text()函数一起使用,您可以尝试使用缩写()函数来缩短标签,或者尝试使用format()函数来更好地对齐标

最近我被告知回归数据的标签也应该标准化以获得更好的结果,但我对此相当怀疑。我从未尝试过在回归和分类中规范化标签,这就是为什么我不知道这种状态是否正确。关于这个问题,你能给我一个明确的解释(数学上或经验上)吗

非常感谢你。 任何帮助都将不胜感激。

当你说“规范化”标签时,不清楚你的意思(即,你是指统计意义上的还是其他意义上的)。你能举个例子吗

在数据分析中统一标签 如果您正试图整理标签以便与
text()
函数一起使用,您可以尝试使用
缩写()
函数来缩短标签,或者尝试使用
format()
函数来更好地对齐标签

pretty()。例如,用于绘制直方图的基本函数
hist()
调用Sturges或其他算法,然后使用
pretty()
选择合适的箱子大小

scale()

关于回归中缩放的原因(回复questor的评论)。假设你在协变量X1,X2上回归Y。。。缩放协变量Xk的原因取决于上下文。它可以比较每个协变量的系数(效应大小)。它有助于确保数值的准确性(现在通常不是问题,除非在非常不同的尺度和/或数据上的协变量很大)。有关可读的介绍,请参阅。有关数学方面的详细讨论,请参见


特别是,在贝叶斯回归中,建议重新调整尺度以确保MCMC估计的收敛性;e、 g.见

您的意思是要素而不是标签

即使在某些情况下,这是一种有助于更快收敛的技巧,也不必为回归或分类规范化特征。你可能想检查一下


根据我的经验,当使用一个简单的模型,比如只有几个变量的线性回归时,保持特征不变(无需标准化)是比较可取的,因为模型更易于解释。

您的意思可能是您应该缩放标签。原因是收敛速度更快,而且不会出现数值不稳定性

例如,如果您的标签在范围(10001000000)内,并且权重初始化接近于零,则mse损失将非常大,您可能会得到NaN错误


有关类似的讨论,请参阅。

谢谢您的评论。这里的标准化是指通过使用任何缩放技术(范围0-1或减去平均值并除以标准偏差)缩放数据。我需要一个解释,为什么我应该/不应该对回归中的数据标签这样做,而不是具体的函数。例如,回归问题的数据标签可以是1-5范围内的浮点数。我的问题是,我是否应该将它们缩放到0-1的范围内。缩放数据“标签”是非正统的术语。然而,缩放数据更标准。。。我已经编辑了我的答案以包含链接。这表明您的问题应该是“我是否需要在回归中重新缩放我的响应(有时称为因变量)”而不是任何关于数据标签的问题。这个问题的答案是否定的!这是新用户(有时是有经验的)对回归的一个常见误解——响应变量不一定是正常的。如果使用正态分布误差拟合回归,则需要检查正态性的是误差(即残差)。在20世纪60年代,分析师们习惯于将他们的回答(继续之前的评论)标准化,作为一种拙劣的计算近似。然而,由于广义线性模型(GLM)的发明,这种“标准化”不再是必要的,它允许您用非正态响应拟合回归。尝试使用泊松或负二项回归进行计数响应。尝试二项/logistic/probit回归以获得二元反应,如真/假或存在/不存在。对于响应,还有许多其他的分配选择。所有这些都不需要对响应数据进行标准化。谢谢您的回答。我真正指的是数据标签,而不是特性,因为特性规范化已经是一种熟悉的技术,并且已经有很多关于它的文章了。好吧,很抱歉。我从来没有听说过这样的事情,我不认为规范化标签有什么意义。以下帖子解释了它没有任何影响的原因:。希望能有帮助。非常感谢你的帮助。这确实是我需要的解释。我忘记了在回归中,标签被称为目标变量。这就是我找不到那篇文章的原因。再次感谢你,祝你度过愉快的一天!目标变量不是在分类模型中被称为标签而不是回归吗?是的,“标签”用于分类而不是回归。你从哪里听说的?我以前从来没有听过它,事实上它没有任何直观的意义。据我所知,这些标签本身并没有用于任何回归计算。@JamieBull是我的一位大四学生,他告诉我的。我觉得这很荒谬,所以我想确定一下。我还想给他一个确切的解释,告诉他为什么没有必要这么做。