Python 如何在pandas中保存整个工作区(如RData)

Python 如何在pandas中保存整个工作区(如RData),python,r,numpy,pandas,hdf,Python,R,Numpy,Pandas,Hdf,从R开始,我们对R的生产用途是将大量数据作为.RData(通过save_image)保存到磁盘,并在下次加载工作区时使用它。似乎没有将整个pandas工作区保存到磁盘的真正解决方案 有莳萝,但看起来不值得生产。 这是熊猫/Numpy的反模式吗?我认为应该有类似HDF5(或最近发布的Apache Arrow)的东西来快照运行状态 请注意,我不是在谈论休眠——我只是指这里的数据结构,而不是代码的运行状态或诸如此类的东西 此外,关于IRC的讨论提到: 您可以使用hdf5,但在这种情况下,在使用它之前

从R开始,我们对R的生产用途是将大量数据作为.RData(通过save_image)保存到磁盘,并在下次加载工作区时使用它。似乎没有将整个pandas工作区保存到磁盘的真正解决方案

有莳萝,但看起来不值得生产。 这是熊猫/Numpy的反模式吗?我认为应该有类似HDF5(或最近发布的Apache Arrow)的东西来快照运行状态

请注意,我不是在谈论休眠——我只是指这里的数据结构,而不是代码的运行状态或诸如此类的东西

此外,关于IRC的讨论提到:

  • 您可以使用hdf5,但在这种情况下,在使用它之前,始终要对其进行往返,即使是在刚刚计算的时候——不幸的是,to_hdf/read_hdf不一定会提供您开始使用的数据帧
  • pickle是不可调试的、不兼容版本的、仅限Python的、不安全到不安全的,并且如果数据正确,则可能不正确

那么这两种方式都不好

您可以将整个脚本放在一个类中,然后使用来序列化和反序列化该对象。它的工作原理可能与R中的工作空间实例不完全相同,但这是我现在能想到的最接近的东西