Python 在pandas中创建虚拟变量期间drop_First=true
我的数据集中有几个月(一月、二月、三月等)的数据,我正在使用pandas库生成虚拟变量。 pd.get_假人(df['month'],drop_first=True) 我想了解在这种情况下是否应该使用drop_first=True? 为什么首先使用drop_很重要?对于哪种类型的变量?Python 在pandas中创建虚拟变量期间drop_First=true,python,linear-regression,Python,Linear Regression,我的数据集中有几个月(一月、二月、三月等)的数据,我正在使用pandas库生成虚拟变量。 pd.get_假人(df['month'],drop_first=True) 我想了解在这种情况下是否应该使用drop_first=True? 为什么首先使用drop_很重要?对于哪种类型的变量? drop_first=True非常重要,因为它有助于减少在创建伪变量期间创建的额外列。因此,它减少了虚拟变量之间的相关性 假设在分类列中有3种类型的值,我们希望为该列创建虚拟变量。如果一个变量未提供或半提供,则显
- drop_first=True非常重要,因为它有助于减少在创建伪变量期间创建的额外列。因此,它减少了虚拟变量之间的相关性
- 假设在分类列中有3种类型的值,我们希望为该列创建虚拟变量。如果一个变量未提供或半提供,则显然未提供。因此,我们不需要第三个变量来识别未安装的。
因此,如果我们有n个级别的分类变量,那么我们需要使用n-1列来表示虚拟变量。是的,你应该想象你正在看一个抛硬币,并且有一个称为is_head的功能,你不需要列is_tail,因为你已经通过is_head=False知道它。这同样适用于其他功能,如您的月份,如果一月到十一月为假,则很明显是十二月。为什么这很重要?因为更多的虚拟特征使算法更难适应,甚至更糟,使算法更容易过度适应。