Machine learning logistic回归中连续变量的标度
我正在进行逻辑回归,对此有疑问 我的数据集中有分类变量(0,1)和连续变量。。 现在我需要在0和1之间缩放连续变量吗? 因为我的几个连续变量的值最多为10kMachine learning logistic回归中连续变量的标度,machine-learning,scaling,data-science,logistic-regression,Machine Learning,Scaling,Data Science,Logistic Regression,我正在进行逻辑回归,对此有疑问 我的数据集中有分类变量(0,1)和连续变量。。 现在我需要在0和1之间缩放连续变量吗? 因为我的几个连续变量的值最多为10k 在进行逻辑回归时,将这些连续值与分类变量一起保留有意义吗?理论上,这是不必要的。但是,对于大范围的输入,生成的系统可能具有非常小的系数。如果您想为您的模型使用精度较低的数字(例如16位),这可能是一个问题 我不知道你为什么要问是否应该在模型中使用连续值。如果有任何与结果相关的可能性,请保留它们。只有当你确定它们是不相关的,才可以忽略它们。你
在进行逻辑回归时,将这些连续值与分类变量一起保留有意义吗?理论上,这是不必要的。但是,对于大范围的输入,生成的系统可能具有非常小的系数。如果您想为您的模型使用精度较低的数字(例如16位),这可能是一个问题
我不知道你为什么要问是否应该在模型中使用连续值。如果有任何与结果相关的可能性,请保留它们。只有当你确定它们是不相关的,才可以忽略它们。你可以根据方差和位置进行缩放。有很多选择。我的建议是考虑缩放,如果你的变量在内部和内部变化很大。你可以尝试以下方法 下面所有的东西都代表一个向量,所以X,我的意思是 . 因此,我在下面写的不是向量就是矩阵 按范围缩放 ,其中R是变量的范围,基本上是max(X)-min(X) 按位置(居中)和差异(缩放)缩放 ,其中xbar和s分别是X的样本均值和样本方差
后者也提供了居中,因此请确保为数据选择了正确的公式。这里没有经验法则,但直觉和推理是关键。您还可以尝试不同的比例和位置度量组合。对于简单线性/逻辑回归(无正则化):无需缩放变量。 对于具有正则化的线性/逻辑回归:您需要执行缩放
对于没有正则化的线性/逻辑回归,仅当您希望在拟合后解释/比较权重时,才需要缩放特征。否则,具有更高值的功能可能比其他功能的权重更小。您好,我的数据集中的东西是连续变量的混合体,如(年龄、余额、已过天数、余额范围为2k、已过天数约为1k、年龄范围为90)和许多分类变量。。如果我不缩放连续变量。我的模型会不会偏向于更具价值的连续特性?那么我是否需要对0-1范围内的所有连续变量进行缩放(m进行逻辑回归分类)@ChaitanyaPatil:logistic回归可以处理任意输入范围。只有输出限制为0到1之间的数字。缩放仅适用于数值原因,以避免系数变得太小或太大。(我对我的答案的术语做了一些修改,因为我第一次认为你使用的是神经网络。但从本质上讲,逻辑回归和单层backprop网络之间没有太大区别。)谢谢!那有帮助