Python 如何在pandas中保存整个工作区（如RData）_Python_R_Numpy_Pandas_Hdf

Python 如何在pandas中保存整个工作区（如RData）

python r numpy pandas

Python 如何在pandas中保存整个工作区（如RData）,python,r,numpy,pandas,hdf,Python,R,Numpy,Pandas,Hdf,从R开始，我们对R的生产用途是将大量数据作为.RData（通过save_image）保存到磁盘，并在下次加载工作区时使用它。似乎没有将整个pandas工作区保存到磁盘的真正解决方案有莳萝，但看起来不值得生产。这是熊猫/Numpy的反模式吗？我认为应该有类似HDF5（或最近发布的Apache Arrow）的东西来快照运行状态请注意，我不是在谈论休眠——我只是指这里的数据结构，而不是代码的运行状态或诸如此类的东西此外，关于IRC的讨论提到：您可以使用hdf5，但在这种情况下，在使用它之前

从R开始，我们对R的生产用途是将大量数据作为.RData（通过save_image）保存到磁盘，并在下次加载工作区时使用它。似乎没有将整个pandas工作区保存到磁盘的真正解决方案

有莳萝，但看起来不值得生产。这是熊猫/Numpy的反模式吗？我认为应该有类似HDF5（或最近发布的Apache Arrow）的东西来快照运行状态

请注意，我不是在谈论休眠——我只是指这里的数据结构，而不是代码的运行状态或诸如此类的东西

此外，关于IRC的讨论提到：

您可以使用hdf5，但在这种情况下，在使用它之前，始终要对其进行往返，即使是在刚刚计算的时候——不幸的是，to_hdf/read_hdf不一定会提供您开始使用的数据帧
pickle是不可调试的、不兼容版本的、仅限Python的、不安全到不安全的，并且如果数据正确，则可能不正确

那么这两种方式都不好

您可以将整个脚本放在一个类中，然后使用来序列化和反序列化该对象。它的工作原理可能与R中的工作空间实例不完全相同，但这是我现在能想到的最接近的东西