Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/308.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/lua/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 在pandas中创建虚拟变量期间drop_First=true_Python_Linear Regression - Fatal编程技术网

Python 在pandas中创建虚拟变量期间drop_First=true

Python 在pandas中创建虚拟变量期间drop_First=true,python,linear-regression,Python,Linear Regression,我的数据集中有几个月(一月、二月、三月等)的数据,我正在使用pandas库生成虚拟变量。 pd.get_假人(df['month'],drop_first=True) 我想了解在这种情况下是否应该使用drop_first=True? 为什么首先使用drop_很重要?对于哪种类型的变量? drop_first=True非常重要,因为它有助于减少在创建伪变量期间创建的额外列。因此,它减少了虚拟变量之间的相关性 假设在分类列中有3种类型的值,我们希望为该列创建虚拟变量。如果一个变量未提供或半提供,则显

我的数据集中有几个月(一月、二月、三月等)的数据,我正在使用pandas库生成虚拟变量。 pd.get_假人(df['month'],drop_first=True)

我想了解在这种情况下是否应该使用drop_first=True? 为什么首先使用drop_很重要?对于哪种类型的变量?

  • drop_first=True非常重要,因为它有助于减少在创建伪变量期间创建的额外列。因此,它减少了虚拟变量之间的相关性
  • 假设在分类列中有3种类型的值,我们希望为该列创建虚拟变量。如果一个变量未提供或半提供,则显然未提供。因此,我们不需要第三个变量来识别未安装的。

因此,如果我们有n个级别的分类变量,那么我们需要使用n-1列来表示虚拟变量。

是的,你应该想象你正在看一个抛硬币,并且有一个称为is_head的功能,你不需要列is_tail,因为你已经通过is_head=False知道它。这同样适用于其他功能,如您的月份,如果一月到十一月为假,则很明显是十二月。为什么这很重要?因为更多的虚拟特征使算法更难适应,甚至更糟,使算法更容易过度适应。