Pandas 在多元线性回归中处理分类变量和数值变量

Pandas 在多元线性回归中处理分类变量和数值变量,pandas,python-2.7,scikit-learn,linear-regression,Pandas,Python 2.7,Scikit Learn,Linear Regression,因此,我已经使用sklearn中的线性回归在Python中执行了多元线性回归 我的独立变量都是数字,我的从属变量也是数字 但现在我想做一个多元线性回归,结合数值和非数值独立变量 因此,我有几个问题: 如果我对非数值变量使用虚拟变量或一个Hot,那么我是否能够从sklearn执行线性回归 如果是,我是否必须更改某些参数 如果不是,我应该如何执行线性回归 让我烦恼的一件事是dummy/One-hot方法不处理顺序变量,对吗?因为在我看来,它不应该以同样的方式编码 问题是:即使我想对不同的标称变量和顺

因此,我已经使用sklearn中的线性回归在Python中执行了多元线性回归

我的独立变量都是数字,我的从属变量也是数字

但现在我想做一个多元线性回归,结合数值和非数值独立变量

因此,我有几个问题:

如果我对非数值变量使用虚拟变量或一个Hot,那么我是否能够从sklearn执行线性回归

如果是,我是否必须更改某些参数

如果不是,我应该如何执行线性回归

让我烦恼的一件事是dummy/One-hot方法不处理顺序变量,对吗?因为在我看来,它不应该以同样的方式编码

问题是:即使我想对不同的标称变量和顺序变量进行编码, Python似乎不可能分辨出它们之间的区别

这件事对你来说可能很容易,但现在你可以告诉我,我有点困惑,所以我真的需要你的帮助

提前感谢,

亚历克斯

如果我对非数值变量使用虚拟变量或一个Hot,那么我是否能够从sklearn执行线性回归? 事实上,模型必须专门输入数字数据,因此您必须在输入特征中使用OneHot向量作为分类数据。为此,您可以查看Scikit和Learn

让我烦恼的一件事是dummy/One-hot方法不处理顺序变量,对吗?因为在我看来,它不应该以同样的方式编码 对。正如您提到的,一个热门方法不处理顺序变量。使用顺序要素的一种方法是创建比例贴图,并将这些要素映射到该比例。对于这些情况,是非常有用的工具。您可以根据前面提到的预定义比例映射为其提供映射字典。否则,很明显,它会将整数随机分配给不同的类别,因为它不知道如何推断任何顺序。从文件中:

顺序编码使用一列整数来表示类。可以传入一个可选的映射dict,在本例中,我们使用的知识是类本身有一些真正的顺序。否则,假定类没有真正的顺序,并且随机选择整数


希望这能有所帮助。

谢谢你,Alexandre,这绝对有帮助!我现在要看序数。但关于我的最后一点,Python似乎不可能区分名义变量和序数变量,对吗?所以我想我有点被困在那里了?没有。只有你才知道你的特征是有序的还是标称的,因此你必须做一些预处理步骤,以便为你的模型提供有意义的特征。很高兴它帮了我的忙,因为它使我无法进行这种线性回归。有办法吗?正如我提到的,你有这两种选择。或者你对你的功能进行了一次热编码,但是丢失了它们提供的订单信息,看看你的模型是否有所收获;或者创建有序特征的映射,表示尊重分类特征的有序性的整数。