Python 使用Graphlab线性回归时，为什么系数数大于特征数_Python_Machine Learning_Linear Regression_Graphlab

Python 使用Graphlab线性回归时，为什么系数数大于特征数

python machine-learning

Python 使用Graphlab线性回归时，为什么系数数大于特征数,python,machine-learning,linear-regression,graphlab,Python,Machine Learning,Linear Regression,Graphlab,在线性回归模型中，当特征数为1时，通过图表，系数数为2。但当特征数为3时，系数数较大，甚至为40。为什么不是4？那么，系数是什么意思？为什么这些系数有相同的名称？对不起，我的英语不好如果我们查看您的屏幕截图，我们可以看到每个浴室的索引但是根据：“请注意，系数中的索引列仅适用于分类特征、列表和字典。” 此外： “str类型的所有SFrame列都会自动转换为分类变量。请注意，系数的数量和特征的数量并不相同。” 看起来您正在以字符串类型放置数据。尝试在您的列车数据中检查浴室列的类型 PS.文件中

在线性回归模型中，当特征数为1时，通过图表，系数数为2。但当特征数为3时，系数数较大，甚至为40。为什么不是4？那么，系数是什么意思？为什么这些系数有相同的名称？对不起，我的英语不好

如果我们查看您的屏幕截图，我们可以看到每个浴室的索引

但是根据：“请注意，系数中的索引列仅适用于分类特征、列表和字典。”

此外： “str类型的所有SFrame列都会自动转换为分类变量。请注意，系数的数量和特征的数量并不相同。”

看起来您正在以字符串类型放置数据。尝试在您的列车数据中检查浴室列的类型

PS.文件中的示例：

谢谢您的回答。但我还有一个问题。从文件上看，这些虚拟系数的数量等于类别总数减去1？但为什么？我认为每个类别都应该有一个虚拟系数。对于通常的线性reg模型，您使用了一些偏差，如beta0（y=β0+β1d1+β2d2+β3d3+ε），其中dn-输入变量，βn-超参数和ε-高斯噪声。因此，可以像这种偏差一样预测参考类别。您可以找到详细的描述。