Pandas 使用Keras处理大于内存的文件

Pandas 使用Keras处理大于内存的文件,pandas,numpy,machine-learning,neural-network,keras,Pandas,Numpy,Machine Learning,Neural Network,Keras,我试图在数据帧中的一些中等大小的数据上训练神经网络。它太大,无法在内存中处理,但对于数据库类型机制(spark)来说太小。我可以将大部分数据加载到稀疏数据帧中~60+GB。然而,当我尝试使用生成器将它的一部分传递给我的keras串行NN时,我最终得到了一个内存错误 我想也许拆分数据,加载numpy或pandas array/df,然后将数据传输到网络是一种可行的方法,但我所读到的所有内容都表明,这只会减慢速度。我想知道是否还有另一种我还没有找到的方法。。。。如有任何见解,将不胜感激 您是否尝试使

我试图在数据帧中的一些中等大小的数据上训练神经网络。它太大,无法在内存中处理,但对于数据库类型机制(spark)来说太小。我可以将大部分数据加载到稀疏数据帧中~60+GB。然而,当我尝试使用生成器将它的一部分传递给我的keras串行NN时,我最终得到了一个内存错误


我想也许拆分数据,加载numpy或pandas array/df,然后将数据传输到网络是一种可行的方法,但我所读到的所有内容都表明,这只会减慢速度。我想知道是否还有另一种我还没有找到的方法。。。。如有任何见解,将不胜感激

您是否尝试使用
numpy.load
mmap\u mode='r'
?如果使用此模式,文件将不会加载到内存中。您可以在生成器中将映射文件转换为numpy数组。我没有,但我当然可以尝试!谢谢