Machine learning 线性回归中的虚拟变量陷阱

Machine learning 线性回归中的虚拟变量陷阱,machine-learning,linear-regression,dummy-variable,Machine Learning,Linear Regression,Dummy Variable,我有一个数据集,其中包含分类属性状态,可以采取纽约州,加利福尼亚州和佛罗里达州 在将这些值编码到虚拟变量中之后,为什么需要删除 一个变量 有人能解释一下什么是虚拟变量陷阱吗 线性回归中的情况 为什么我们需要将1个变量删除到 走出困境 这并非总是必要的,但其思想是,如果分类属性覆盖所有空间(即,您的虚拟变量代表属性的所有可能值),则其他N-1个虚拟变量可以完美预测最后一个虚拟变量: last_dummy=1,如果所有和(dummies[:N-1])==0,否则为0 这在虚拟变量之间引入了严重的共

我有一个数据集,其中包含分类属性状态,可以采取纽约州,加利福尼亚州和佛罗里达州

  • 在将这些值编码到虚拟变量中之后,为什么需要删除 一个变量
  • 有人能解释一下什么是虚拟变量陷阱吗 线性回归中的情况
  • 为什么我们需要将1个变量删除到 走出困境

这并非总是必要的,但其思想是,如果分类属性覆盖所有空间(即,您的虚拟变量代表属性的所有可能值),则其他N-1个虚拟变量可以完美预测最后一个虚拟变量:

last_dummy=1,如果所有和(dummies[:N-1])==0,否则为0

这在虚拟变量之间引入了严重的共线性(这在线性/逻辑回归中是非常不可取的),这就是为什么它被称为虚拟变量陷阱


通常,解决此问题的方法是只删除一个虚拟列(任何一个都可以,它不必是最后一个)。这消除了共线性的来源,并且,由于虚拟变量可以由其他变量预测,因此原始数据集中的信息完全不会丢失。

由于截距,您始终需要在每个级别删除一个虚拟变量 假设一周中有7个虚拟变量 参考资料将于周一与其他参考资料进行比较


如果删除截取,则可以添加星期一。但删除截距只在非常特殊的情况下进行

我需要一个理论解释。为什么我们需要删除一个变量?它被称为虚拟变量陷阱。虚拟变量陷阱是一种自变量多重共线的情况——两个或多个变量高度相关的情况;简单来说,一个变量可以从其他变量中预测出来。因此,删除一个变量。(摘自这里:)谢谢。那么,如果我把所有的虚拟变量都包括在方程中,那么它和常数项有关系吗?我在某个地方读到,常数项和所有的虚拟变量不能在一个线性方程中结合在一起。不,不是真的。常数项(偏差)应该独立于其他变量。这里的问题是,每个虚拟变量都可以被其他变量预测,所以你需要拿出一个来“打破循环”。为什么我们不能让所有变量都有截距?有什么特别的原因吗?当你有完美的共线时,这个模型是不可解的。当截距与分类变量之和完全共线时,矩阵为奇异/退化矩阵。