R Python中带有虚拟变量的OLS-最佳解决方案？_R_Regression_Python_Scipy_Numpy

R Python中带有虚拟变量的OLS-最佳解决方案？

r python numpy

R Python中带有虚拟变量的OLS-最佳解决方案？,r,regression,python,scipy,numpy,R,Regression,Python,Scipy,Numpy,我试图用Python解决一个问题，我已经找到了多种解决方案（我想），但我试图找出哪一种是最好的。我希望选择的图书馆将在未来得到充分支持，这样我就不必重新编写这项服务我想用分类变量和连续因变量做一个普通的多元最小二乘回归。代码必须用Python编写，因为它要集成到web服务中。我一直在关注熊猫，但从未使用过，所以这似乎是一种方法：解决方案1 显然，numpy/scipy是理想的，但我找不到使用伪变量的示例（有人有吗？？）。我确实找到了这个解决方案2 我可以修改它以支持虚拟变量，但如果其他人已

我试图用Python解决一个问题，我已经找到了多种解决方案（我想），但我试图找出哪一种是最好的。我希望选择的图书馆将在未来得到充分支持，这样我就不必重新编写这项服务

我想用分类变量和连续因变量做一个普通的多元最小二乘回归。代码必须用Python编写，因为它要集成到web服务中。我一直在关注熊猫，但从未使用过，所以这似乎是一种方法：

解决方案1

显然，numpy/scipy是理想的，但我找不到使用伪变量的示例（有人有吗？？）。我确实找到了这个

解决方案2

我可以修改它以支持虚拟变量，但如果其他人已经这样做了，我不想这样做+我希望数字与R非常相似，因为我离线完成了大部分分析，我可以将这些结果用于单元测试

在上面的示例（2）中，我看到我可以在技术上使用rpy/rpy2，尽管这不是最佳的，因为我的web服务还需要另一种技术（R）。使用该接口的好处是，这些数字将与我从R获得的结果相同

解决方案3。（但使用Rpy/Rpy2）

不管怎样，我对这三种解决方案中每个人的做法都很感兴趣，如果我缺少的话。。。。。。如果Panda足够成熟，可以开始在生产web服务中使用。这里的关键是，如果可能的话，我不想支持/修补bug修复或从头开始编写任何东西。我太忙了，可能不够聪明：）

谢谢。

您可以使用statsmodels，它提供了许多不同的模型和结果统计信息

如果您想使用类似R的公式接口，以下是一些示例，您可以查看相应的文档：

如果您想要一个纯numpy版本，那么这里有一个旧的示例，它从头开始做所有事情

这些模型与pandas集成，可以使用pandas DataFrame作为因变量和自变量的数据结构（statsmodels命名约定中的endog和exog）