Python 在pandas中创建虚拟变量期间drop_First=true_Python_Linear Regression

Python 在pandas中创建虚拟变量期间drop_First=true

python

Python 在pandas中创建虚拟变量期间drop_First=true,python,linear-regression,Python,Linear Regression,我的数据集中有几个月（一月、二月、三月等）的数据，我正在使用pandas库生成虚拟变量。 pd.get_假人（df['month']，drop_first=True）我想了解在这种情况下是否应该使用drop_first=True？为什么首先使用drop_很重要？对于哪种类型的变量？ drop_first=True非常重要，因为它有助于减少在创建伪变量期间创建的额外列。因此，它减少了虚拟变量之间的相关性假设在分类列中有3种类型的值，我们希望为该列创建虚拟变量。如果一个变量未提供或半提供，则显

我的数据集中有几个月（一月、二月、三月等）的数据，我正在使用pandas库生成虚拟变量。 pd.get_假人（df['month']，drop_first=True）

我想了解在这种情况下是否应该使用drop_first=True？为什么首先使用drop_很重要？对于哪种类型的变量？

drop_first=True非常重要，因为它有助于减少在创建伪变量期间创建的额外列。因此，它减少了虚拟变量之间的相关性
假设在分类列中有3种类型的值，我们希望为该列创建虚拟变量。如果一个变量未提供或半提供，则显然未提供。因此，我们不需要第三个变量来识别未安装的。

因此，如果我们有n个级别的分类变量，那么我们需要使用n-1列来表示虚拟变量。

是的，你应该想象你正在看一个抛硬币，并且有一个称为is_head的功能，你不需要列is_tail，因为你已经通过is_head=False知道它。这同样适用于其他功能，如您的月份，如果一月到十一月为假，则很明显是十二月。为什么这很重要？因为更多的虚拟特征使算法更难适应，甚至更糟，使算法更容易过度适应。