Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/logging/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning logistic回归中连续变量的标度_Machine Learning_Scaling_Data Science_Logistic Regression - Fatal编程技术网

Machine learning logistic回归中连续变量的标度

Machine learning logistic回归中连续变量的标度,machine-learning,scaling,data-science,logistic-regression,Machine Learning,Scaling,Data Science,Logistic Regression,我正在进行逻辑回归,对此有疑问 我的数据集中有分类变量(0,1)和连续变量。。 现在我需要在0和1之间缩放连续变量吗? 因为我的几个连续变量的值最多为10k 在进行逻辑回归时,将这些连续值与分类变量一起保留有意义吗?理论上,这是不必要的。但是,对于大范围的输入,生成的系统可能具有非常小的系数。如果您想为您的模型使用精度较低的数字(例如16位),这可能是一个问题 我不知道你为什么要问是否应该在模型中使用连续值。如果有任何与结果相关的可能性,请保留它们。只有当你确定它们是不相关的,才可以忽略它们。你

我正在进行逻辑回归,对此有疑问 我的数据集中有分类变量(0,1)和连续变量。。 现在我需要在0和1之间缩放连续变量吗? 因为我的几个连续变量的值最多为10k
在进行逻辑回归时,将这些连续值与分类变量一起保留有意义吗?

理论上,这是不必要的。但是,对于大范围的输入,生成的系统可能具有非常小的系数。如果您想为您的模型使用精度较低的数字(例如16位),这可能是一个问题


我不知道你为什么要问是否应该在模型中使用连续值。如果有任何与结果相关的可能性,请保留它们。只有当你确定它们是不相关的,才可以忽略它们。

你可以根据方差和位置进行缩放。有很多选择。我的建议是考虑缩放,如果你的变量在内部和内部变化很大。你可以尝试以下方法

下面所有的东西都代表一个向量,所以X,我的意思是

. 因此,我在下面写的不是向量就是矩阵

按范围缩放

,其中R是变量的范围,基本上是max(X)-min(X)

按位置(居中)和差异(缩放)缩放

,其中xbar和s分别是X的样本均值和样本方差


后者也提供了居中,因此请确保为数据选择了正确的公式。这里没有经验法则,但直觉和推理是关键。您还可以尝试不同的比例和位置度量组合。

对于简单线性/逻辑回归(无正则化):无需缩放变量。 对于具有正则化的线性/逻辑回归:您需要执行缩放


对于没有正则化的线性/逻辑回归,仅当您希望在拟合后解释/比较权重时,才需要缩放特征。否则,具有更高值的功能可能比其他功能的权重更小。

您好,我的数据集中的东西是连续变量的混合体,如(年龄、余额、已过天数、余额范围为2k、已过天数约为1k、年龄范围为90)和许多分类变量。。如果我不缩放连续变量。我的模型会不会偏向于更具价值的连续特性?那么我是否需要对0-1范围内的所有连续变量进行缩放(m进行逻辑回归分类)@ChaitanyaPatil:logistic回归可以处理任意输入范围。只有输出限制为0到1之间的数字。缩放仅适用于数值原因,以避免系数变得太小或太大。(我对我的答案的术语做了一些修改,因为我第一次认为你使用的是神经网络。但从本质上讲,逻辑回归和单层backprop网络之间没有太大区别。)谢谢!那有帮助