Machine learning 线性回归中的虚拟变量陷阱_Machine Learning_Linear Regression_Dummy Variable

Machine learning 线性回归中的虚拟变量陷阱

machine-learning

Machine learning 线性回归中的虚拟变量陷阱,machine-learning,linear-regression,dummy-variable,Machine Learning,Linear Regression,Dummy Variable,我有一个数据集，其中包含分类属性状态，可以采取纽约州，加利福尼亚州和佛罗里达州在将这些值编码到虚拟变量中之后，为什么需要删除一个变量有人能解释一下什么是虚拟变量陷阱吗线性回归中的情况为什么我们需要将1个变量删除到走出困境这并非总是必要的，但其思想是，如果分类属性覆盖所有空间（即，您的虚拟变量代表属性的所有可能值），则其他N-1个虚拟变量可以完美预测最后一个虚拟变量： last_dummy=1，如果所有和（dummies[：N-1]）==0，否则为0 这在虚拟变量之间引入了严重的共

我有一个数据集，其中包含分类属性状态，可以采取纽约州，加利福尼亚州和佛罗里达州

在将这些值编码到虚拟变量中之后，为什么需要删除一个变量
有人能解释一下什么是虚拟变量陷阱吗线性回归中的情况
为什么我们需要将1个变量删除到走出困境

这并非总是必要的，但其思想是，如果分类属性覆盖所有空间（即，您的虚拟变量代表属性的所有可能值），则其他N-1个虚拟变量可以完美预测最后一个虚拟变量：

last_dummy=1，如果所有和（dummies[：N-1]）==0，否则为0

这在虚拟变量之间引入了严重的共线性（这在线性/逻辑回归中是非常不可取的），这就是为什么它被称为虚拟变量陷阱

通常，解决此问题的方法是只删除一个虚拟列（任何一个都可以，它不必是最后一个）。这消除了共线性的来源，并且，由于虚拟变量可以由其他变量预测，因此原始数据集中的信息完全不会丢失。

由于截距，您始终需要在每个级别删除一个虚拟变量假设一周中有7个虚拟变量参考资料将于周一与其他参考资料进行比较

如果删除截取，则可以添加星期一。但删除截距只在非常特殊的情况下进行

我需要一个理论解释。为什么我们需要删除一个变量？它被称为虚拟变量陷阱。虚拟变量陷阱是一种自变量多重共线的情况——两个或多个变量高度相关的情况；简单来说，一个变量可以从其他变量中预测出来。因此，删除一个变量。（摘自这里：）谢谢。那么，如果我把所有的虚拟变量都包括在方程中，那么它和常数项有关系吗？我在某个地方读到，常数项和所有的虚拟变量不能在一个线性方程中结合在一起。不，不是真的。常数项（偏差）应该独立于其他变量。这里的问题是，每个虚拟变量都可以被其他变量预测，所以你需要拿出一个来“打破循环”。为什么我们不能让所有变量都有截距？有什么特别的原因吗？当你有完美的共线时，这个模型是不可解的。当截距与分类变量之和完全共线时，矩阵为奇异/退化矩阵。