Machine learning logistic回归中连续变量的标度_Machine Learning_Scaling_Data Science_Logistic Regression

Machine learning logistic回归中连续变量的标度

machine-learning

Machine learning logistic回归中连续变量的标度,machine-learning,scaling,data-science,logistic-regression,Machine Learning,Scaling,Data Science,Logistic Regression,我正在进行逻辑回归，对此有疑问我的数据集中有分类变量（0,1）和连续变量。。现在我需要在0和1之间缩放连续变量吗？因为我的几个连续变量的值最多为10k 在进行逻辑回归时，将这些连续值与分类变量一起保留有意义吗？理论上，这是不必要的。但是，对于大范围的输入，生成的系统可能具有非常小的系数。如果您想为您的模型使用精度较低的数字（例如16位），这可能是一个问题我不知道你为什么要问是否应该在模型中使用连续值。如果有任何与结果相关的可能性，请保留它们。只有当你确定它们是不相关的，才可以忽略它们。你

我正在进行逻辑回归，对此有疑问我的数据集中有分类变量（0,1）和连续变量。。现在我需要在0和1之间缩放连续变量吗？因为我的几个连续变量的值最多为10k

在进行逻辑回归时，将这些连续值与分类变量一起保留有意义吗？

理论上，这是不必要的。但是，对于大范围的输入，生成的系统可能具有非常小的系数。如果您想为您的模型使用精度较低的数字（例如16位），这可能是一个问题

我不知道你为什么要问是否应该在模型中使用连续值。如果有任何与结果相关的可能性，请保留它们。只有当你确定它们是不相关的，才可以忽略它们。

你可以根据方差和位置进行缩放。有很多选择。我的建议是考虑缩放，如果你的变量在内部和内部变化很大。你可以尝试以下方法

下面所有的东西都代表一个向量，所以X，我的意思是

. 因此，我在下面写的不是向量就是矩阵

按范围缩放

，其中R是变量的范围，基本上是max（X）-min（X）

按位置（居中）和差异（缩放）缩放

，其中xbar和s分别是X的样本均值和样本方差

后者也提供了居中，因此请确保为数据选择了正确的公式。这里没有经验法则，但直觉和推理是关键。您还可以尝试不同的比例和位置度量组合。

对于简单线性/逻辑回归（无正则化）：无需缩放变量。对于具有正则化的线性/逻辑回归：您需要执行缩放

对于没有正则化的线性/逻辑回归，仅当您希望在拟合后解释/比较权重时，才需要缩放特征。否则，具有更高值的功能可能比其他功能的权重更小。

您好，我的数据集中的东西是连续变量的混合体，如（年龄、余额、已过天数、余额范围为2k、已过天数约为1k、年龄范围为90）和许多分类变量。。如果我不缩放连续变量。我的模型会不会偏向于更具价值的连续特性？那么我是否需要对0-1范围内的所有连续变量进行缩放（m进行逻辑回归分类）@ChaitanyaPatil:logistic回归可以处理任意输入范围。只有输出限制为0到1之间的数字。缩放仅适用于数值原因，以避免系数变得太小或太大。（我对我的答案的术语做了一些修改，因为我第一次认为你使用的是神经网络。但从本质上讲，逻辑回归和单层backprop网络之间没有太大区别。）谢谢！那有帮助