Python 使用pandas高效地编写Stata文件

Python 使用pandas高效地编写Stata文件,python,pandas,stata,Python,Pandas,Stata,我使用pandas to_Stata将一个名为SalesData的大型数据帧(1800万个观察值;5列)导出为Stata原生文件格式: SalesData.to_stata(sales) 它可以工作,但速度非常慢,无法在生产中使用。我想我理解了原因:正如对生成的Stata文件的检查所示,每个字符串列都由pandas分配244个字符的宽度,而不管列的实际内容-->Stata文件不必要地庞大。Stata中对所述文件的“压缩”命令会将其大小减少10倍,而不会丢失任何数据 我似乎无法找到to_stat

我使用pandas to_Stata将一个名为SalesData的大型数据帧(1800万个观察值;5列)导出为Stata原生文件格式:

SalesData.to_stata(sales)
它可以工作,但速度非常慢,无法在生产中使用。我想我理解了原因:正如对生成的Stata文件的检查所示,每个字符串列都由pandas分配244个字符的宽度,而不管列的实际内容-->Stata文件不必要地庞大。Stata中对所述文件的“压缩”命令会将其大小减少10倍,而不会丢失任何数据

我似乎无法找到to_stata方法的任何选项来控制这种行为

有什么建议吗?
谢谢

不要说太多可能值得发布一篇文章,这篇文章在0.15.0中进行了大量优化,请参见此处:(0.15.0RC1现在可用),请尝试使用它Hanks Jeff,太好了。我将尝试它(需要先弄清楚如何安装0.15.0RC1…)现在熊猫0.15.0已经推出,我已经尝试过了。不幸的是,这并不能改善我的问题,尽管症状不同:在上述相同的DF(1800万obs,5列)上使用的to_stata方法使我的计算机崩溃,因为RAM使用率从大约1.5上升到最大值(8)。该过程无法完成,因为机器暂停,需要重新启动。