在大于RAM的矩阵上加载和操作-python-numpy-pandas
我的任务:在大于RAM的矩阵上加载和操作-python-numpy-pandas,python,pandas,numpy,ram,Python,Pandas,Numpy,Ram,我的任务: 从维度大于my的数据库矩阵加载 使用(pandas.read_sql(…)-数据库是postresql) 使用numpy 问题是:即使从数据库加载数据,我也会遇到内存错误 我的临时快速而肮脏的解决方案:循环上面提到的数据块(一次导入部分数据),从而允许RAM处理工作负载。这里的问题与速度有关。时间要多得多,在深入研究Cython优化等之前,我想知道是否有一些解决方案(以数据结构的形式,如使用库shelving或HDF5格式)来解决这个问题您愿意探索吗?Dask数据帧是由许多较小的数据
pandas.read_sql(…)
-数据库是postresql
)numpy
我的临时快速而肮脏的解决方案:循环上面提到的数据块(一次导入部分数据),从而允许RAM处理工作负载。这里的问题与速度有关。时间要多得多,在深入研究
Cython
优化等之前,我想知道是否有一些解决方案(以数据结构的形式,如使用库shelving
或HDF5格式
)来解决这个问题您愿意探索吗?Dask数据帧是由许多较小的数据帧组成的大型并行数据帧,沿索引拆分。这些数据帧在磁盘上的存储空间可能大于内存。这可能对你有用。我愿意探索任何有效的方法。顺便说一下,超级快速的回答:)的确如此。我现在正在浏览文档和教程。我看到这个图书馆比熊猫馆小得多(可以理解,因为它很大)。但我也看到,通过一些技巧()和()我也许能够完成这项工作。我仍然需要了解如何最好地包装所有这些,但这看起来确实很有希望。谢谢,你想探索一下吗?Dask数据帧是由许多较小的数据帧组成的大型并行数据帧,沿索引拆分。这些数据帧在磁盘上的存储空间可能大于内存。这可能对你有用。我愿意探索任何有效的方法。顺便说一下,超级快速的回答:)的确如此。我现在正在浏览文档和教程。我看到这个图书馆比熊猫馆小得多(可以理解,因为它很大)。但我也看到,通过一些技巧()和()我也许能够完成这项工作。我仍然需要了解如何最好地包装所有这些,但这看起来确实很有希望。非常感谢。