Python 使用pandas高效地编写Stata文件_Python_Pandas_Stata

Python 使用pandas高效地编写Stata文件

python pandas stata

Python 使用pandas高效地编写Stata文件,python,pandas,stata,Python,Pandas,Stata,我使用pandas to_Stata将一个名为SalesData的大型数据帧（1800万个观察值；5列）导出为Stata原生文件格式： SalesData.to_stata(sales) 它可以工作，但速度非常慢，无法在生产中使用。我想我理解了原因：正如对生成的Stata文件的检查所示，每个字符串列都由pandas分配244个字符的宽度，而不管列的实际内容-->Stata文件不必要地庞大。Stata中对所述文件的“压缩”命令会将其大小减少10倍，而不会丢失任何数据我似乎无法找到to_stat

我使用pandas to_Stata将一个名为SalesData的大型数据帧（1800万个观察值；5列）导出为Stata原生文件格式：

SalesData.to_stata(sales)

它可以工作，但速度非常慢，无法在生产中使用。我想我理解了原因：正如对生成的Stata文件的检查所示，每个字符串列都由pandas分配244个字符的宽度，而不管列的实际内容-->Stata文件不必要地庞大。Stata中对所述文件的“压缩”命令会将其大小减少10倍，而不会丢失任何数据

我似乎无法找到to_stata方法的任何选项来控制这种行为

有什么建议吗？

谢谢

不要说太多可能值得发布一篇文章，这篇文章在0.15.0中进行了大量优化，请参见此处：（0.15.0RC1现在可用），请尝试使用它Hanks Jeff，太好了。我将尝试它（需要先弄清楚如何安装0.15.0RC1…）现在熊猫0.15.0已经推出，我已经尝试过了。不幸的是，这并不能改善我的问题，尽管症状不同：在上述相同的DF（1800万obs，5列）上使用的to_stata方法使我的计算机崩溃，因为RAM使用率从大约1.5上升到最大值（8）。该过程无法完成，因为机器暂停，需要重新启动。