Python 使用Graphlab线性回归时,为什么系数数大于特征数

Python 使用Graphlab线性回归时,为什么系数数大于特征数,python,machine-learning,linear-regression,graphlab,Python,Machine Learning,Linear Regression,Graphlab,在线性回归模型中,当特征数为1时,通过图表,系数数为2。但当特征数为3时,系数数较大,甚至为40。为什么不是4?那么,系数是什么意思?为什么这些系数有相同的名称?对不起,我的英语不好 如果我们查看您的屏幕截图,我们可以看到每个浴室的索引 但是根据:“请注意,系数中的索引列仅适用于分类特征、列表和字典。” 此外: “str类型的所有SFrame列都会自动转换为分类变量。请注意,系数的数量和特征的数量并不相同。” 看起来您正在以字符串类型放置数据。尝试在您的列车数据中检查浴室列的类型 PS.文件中

在线性回归模型中,当特征数为1时,通过图表,系数数为2。但当特征数为3时,系数数较大,甚至为40。为什么不是4?那么,系数是什么意思?为什么这些系数有相同的名称?对不起,我的英语不好


如果我们查看您的屏幕截图,我们可以看到每个浴室的索引

但是根据:“请注意,系数中的索引列仅适用于分类特征、列表和字典。”

此外: “str类型的所有SFrame列都会自动转换为分类变量。请注意,系数的数量和特征的数量并不相同。”

看起来您正在以字符串类型放置数据。尝试在您的列车数据中检查浴室列的类型

PS.文件中的示例:

谢谢您的回答。但我还有一个问题。从文件上看,这些虚拟系数的数量等于类别总数减去1?但为什么?我认为每个类别都应该有一个虚拟系数。对于通常的线性reg模型,您使用了一些偏差,如beta0(y=β0+β1d1+β2d2+β3d3+ε),其中dn-输入变量,βn-超参数和ε-高斯噪声。因此,可以像这种偏差一样预测参考类别。您可以找到详细的描述。