R Python中带有虚拟变量的OLS-最佳解决方案?

R Python中带有虚拟变量的OLS-最佳解决方案?,r,regression,python,scipy,numpy,R,Regression,Python,Scipy,Numpy,我试图用Python解决一个问题,我已经找到了多种解决方案(我想),但我试图找出哪一种是最好的。我希望选择的图书馆将在未来得到充分支持,这样我就不必重新编写这项服务 我想用分类变量和连续因变量做一个普通的多元最小二乘回归。代码必须用Python编写,因为它要集成到web服务中。我一直在关注熊猫,但从未使用过,所以这似乎是一种方法: 解决方案1 显然,numpy/scipy是理想的,但我找不到使用伪变量的示例(有人有吗??)。我确实找到了这个 解决方案2 我可以修改它以支持虚拟变量,但如果其他人已

我试图用Python解决一个问题,我已经找到了多种解决方案(我想),但我试图找出哪一种是最好的。我希望选择的图书馆将在未来得到充分支持,这样我就不必重新编写这项服务

我想用分类变量和连续因变量做一个普通的多元最小二乘回归。代码必须用Python编写,因为它要集成到web服务中。我一直在关注熊猫,但从未使用过,所以这似乎是一种方法:

解决方案1

显然,numpy/scipy是理想的,但我找不到使用伪变量的示例(有人有吗??)。我确实找到了这个

解决方案2

我可以修改它以支持虚拟变量,但如果其他人已经这样做了,我不想这样做+我希望数字与R非常相似,因为我离线完成了大部分分析,我可以将这些结果用于单元测试

在上面的示例(2)中,我看到我可以在技术上使用rpy/rpy2,尽管这不是最佳的,因为我的web服务还需要另一种技术(R)。使用该接口的好处是,这些数字将与我从R获得的结果相同

解决方案3。(但使用Rpy/Rpy2)

不管怎样,我对这三种解决方案中每个人的做法都很感兴趣,如果我缺少的话。。。。。。如果Panda足够成熟,可以开始在生产web服务中使用。这里的关键是,如果可能的话,我不想支持/修补bug修复或从头开始编写任何东西。我太忙了,可能不够聪明:)


谢谢。

您可以使用statsmodels,它提供了许多不同的模型和结果统计信息

如果您想使用类似R的公式接口,以下是一些示例,您可以查看相应的文档:

如果您想要一个纯numpy版本,那么这里有一个旧的示例,它从头开始做所有事情

这些模型与pandas集成,可以使用pandas DataFrame作为因变量和自变量的数据结构(statsmodels命名约定中的endog和exog)