在大于RAM的矩阵上加载和操作-python-numpy-pandas_Python_Pandas_Numpy_Ram

在大于RAM的矩阵上加载和操作-python-numpy-pandas

python pandas numpy

在大于RAM的矩阵上加载和操作-python-numpy-pandas,python,pandas,numpy,ram,Python,Pandas,Numpy,Ram,我的任务：从维度大于my的数据库矩阵加载使用（pandas.read_sql（…）-数据库是postresql）使用numpy 问题是：即使从数据库加载数据，我也会遇到内存错误我的临时快速而肮脏的解决方案：循环上面提到的数据块（一次导入部分数据），从而允许RAM处理工作负载。这里的问题与速度有关。时间要多得多，在深入研究Cython优化等之前，我想知道是否有一些解决方案（以数据结构的形式，如使用库shelving或HDF5格式）来解决这个问题您愿意探索吗？Dask数据帧是由许多较小的数据

我的任务：

从维度大于my的数据库矩阵加载使用（

pandas.read_sql（…）

-数据库是

postresql

）

使用

numpy

问题是：即使从数据库加载数据，我也会遇到内存错误

我的临时快速而肮脏的解决方案：循环上面提到的数据块（一次导入部分数据），从而允许RAM处理工作负载。这里的问题与速度有关。时间要多得多，在深入研究

Cython

优化等之前，我想知道是否有一些解决方案（以数据结构的形式，如使用库

shelving

或

HDF5格式

）来解决这个问题

您愿意探索吗？Dask数据帧是由许多较小的数据帧组成的大型并行数据帧，沿索引拆分。这些数据帧在磁盘上的存储空间可能大于内存。这可能对你有用。我愿意探索任何有效的方法。顺便说一下，超级快速的回答：）的确如此。我现在正在浏览文档和教程。我看到这个图书馆比熊猫馆小得多（可以理解，因为它很大）。但我也看到，通过一些技巧（）和（）我也许能够完成这项工作。我仍然需要了解如何最好地包装所有这些，但这看起来确实很有希望。谢谢，你想探索一下吗？Dask数据帧是由许多较小的数据帧组成的大型并行数据帧，沿索引拆分。这些数据帧在磁盘上的存储空间可能大于内存。这可能对你有用。我愿意探索任何有效的方法。顺便说一下，超级快速的回答：）的确如此。我现在正在浏览文档和教程。我看到这个图书馆比熊猫馆小得多（可以理解，因为它很大）。但我也看到，通过一些技巧（）和（）我也许能够完成这项工作。我仍然需要了解如何最好地包装所有这些，但这看起来确实很有希望。非常感谢。