Python 高效地将大熊猫数据帧写入磁盘

Python 高效地将大熊猫数据帧写入磁盘,python,pandas,Python,Pandas,我正试图找到使用Python/Pandas高效地将大数据帧(250MB+)写入磁盘和从磁盘写入数据的最佳方法。我已经尝试了Python中用于数据分析的所有方法,但是性能非常令人失望 这是一个更大项目的一部分,该项目探索将我们当前的分析/数据管理环境从Stata迁移到Python。当我将测试中的读/写时间与使用Stata获得的读/写时间进行比较时,Python和Pandas通常需要20多倍的时间 我强烈怀疑问题出在我身上,而不是巨蟒或熊猫 有什么建议吗?使用HDFStore是你最好的选择(本书没有

我正试图找到使用Python/Pandas高效地将大数据帧(250MB+)写入磁盘和从磁盘写入数据的最佳方法。我已经尝试了Python中用于数据分析的所有方法,但是性能非常令人失望

这是一个更大项目的一部分,该项目探索将我们当前的分析/数据管理环境从Stata迁移到Python。当我将测试中的读/写时间与使用Stata获得的读/写时间进行比较时,Python和Pandas通常需要20多倍的时间

我强烈怀疑问题出在我身上,而不是巨蟒或熊猫


有什么建议吗?

使用
HDFStore
是你最好的选择(本书没有介绍太多,而且变化很大)。您会发现性能比任何其他序列化方法都要好得多


您可以重新阅读本书中的HDF5段落,使用此存储获取持久存储非常有效。如果你解释并展示你为该方法测试的代码可能会有所帮助,你可能会觉得效率低下。是什么让你怀疑你出了问题?store=HDFStore('myfile.h5')store['df']=dfpls post:
df.head()
df.info()
事实证明,HDF5工作得很好,特别是在使用了正确的选项集的情况下。使用blosc压缩时,chunksize=4和complevel=3被证明是最快的。这在很大程度上取决于您的存储方式(例如,一次追加所有内容通常是最好的),是否需要追加以及压缩。my2c;chunksize非常小,默认值是50k行。