Python 高效地将大熊猫数据帧写入磁盘_Python_Pandas

Python 高效地将大熊猫数据帧写入磁盘

python pandas

Python 高效地将大熊猫数据帧写入磁盘,python,pandas,Python,Pandas,我正试图找到使用Python/Pandas高效地将大数据帧（250MB+）写入磁盘和从磁盘写入数据的最佳方法。我已经尝试了Python中用于数据分析的所有方法，但是性能非常令人失望这是一个更大项目的一部分，该项目探索将我们当前的分析/数据管理环境从Stata迁移到Python。当我将测试中的读/写时间与使用Stata获得的读/写时间进行比较时，Python和Pandas通常需要20多倍的时间我强烈怀疑问题出在我身上，而不是巨蟒或熊猫有什么建议吗？使用HDFStore是你最好的选择（本书没有

我正试图找到使用Python/Pandas高效地将大数据帧（250MB+）写入磁盘和从磁盘写入数据的最佳方法。我已经尝试了Python中用于数据分析的所有方法，但是性能非常令人失望

这是一个更大项目的一部分，该项目探索将我们当前的分析/数据管理环境从Stata迁移到Python。当我将测试中的读/写时间与使用Stata获得的读/写时间进行比较时，Python和Pandas通常需要20多倍的时间

我强烈怀疑问题出在我身上，而不是巨蟒或熊猫

有什么建议吗？

使用

HDFStore

是你最好的选择（本书没有介绍太多，而且变化很大）。您会发现性能比任何其他序列化方法都要好得多

您可以重新阅读本书中的HDF5段落，使用此存储获取持久存储非常有效。如果你解释并展示你为该方法测试的代码可能会有所帮助，你可能会觉得效率低下。是什么让你怀疑你出了问题？store=HDFStore（'myfile.h5'）store['df']=dfpls post:

df.head（）

和

df.info（）

事实证明，HDF5工作得很好，特别是在使用了正确的选项集的情况下。使用blosc压缩时，chunksize=4和complevel=3被证明是最快的。这在很大程度上取决于您的存储方式（例如，一次追加所有内容通常是最好的），是否需要追加以及压缩。my2c；chunksize非常小，默认值是50k行。