Pandas HDFStore的限制

Pandas HDFStore的限制,pandas,hdf,hdfstore,Pandas,Hdf,Hdfstore,我计划将Pandas HDFStore用作非核心csv操作的临时文件 (csv-->HDFStore-->熊猫中的核心外操作) 只是想知道: HDF5的尺寸限制,可在1台机器上实际使用 (不是理论上的……) 透视表的操作成本(100列,固定VARCHAR,数字) 我是否需要切换到Postgres(将csv加载到Postgres)和DB内容 试图在google上找到HDF5的一些基准限制大小与计算时间,但找不到 csv的总大小约为500Go-1To(未压缩)。我认为没有限制-请看,唯一的限制是

我计划将Pandas HDFStore用作非核心csv操作的临时文件

(csv-->HDFStore-->熊猫中的核心外操作)

只是想知道:

  • HDF5的尺寸限制,可在1台机器上实际使用 (不是理论上的……)

  • 透视表的操作成本(100列,固定VARCHAR,数字)

  • 我是否需要切换到Postgres(将csv加载到Postgres)和DB内容

试图在google上找到HDF5的一些基准限制大小与计算时间,但找不到


csv的总大小约为500Go-1To(未压缩)。

我认为没有限制-请看,唯一的限制是您的内存。嗯,我认为这个问题很难回答,但显然
pivot
操作消耗了大量内存。如果可能的话,最好是尝试并测试它。