在Python中使用硬盘而不是RAM

在Python中使用硬盘而不是RAM,python,pandas,memory,pydev,Python,Pandas,Memory,Pydev,我想知道是否有一种方法或Python包可以让我使用大型数据集而不必在RAM中编写它 我还使用熊猫作为统计函数 我需要访问整个数据集,因为许多统计函数需要整个数据集才能返回可信的结果 我正在Windows 10的LiClipse上使用PyDev(带解释器Python 3.4)。您可以选择使用,以支持大数据集,或者选择使用pandas和分块读取/迭代,以最小化RAM使用。 也值得一看图书馆 分块阅读: chunksize = 10 ** 6 for chunk in pd.read_csv(file

我想知道是否有一种方法或Python包可以让我使用大型数据集而不必在RAM中编写它

我还使用熊猫作为统计函数

我需要访问整个数据集,因为许多统计函数需要整个数据集才能返回可信的结果


我正在Windows 10的LiClipse上使用PyDev(带解释器Python 3.4)。

您可以选择使用,以支持大数据集,或者选择使用pandas和分块读取/迭代,以最小化RAM使用。 也值得一看图书馆

分块阅读:

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)

如果您只需要将磁盘虚拟化为一个大的RAM内存,那么您可以在系统上设置一个交换文件。然后,内核将根据需要自动交换页面,使用启发式方法确定哪些页面应该交换,哪些页面应该保留在磁盘上。

欢迎使用stackoverflow。首先,您应该阅读:“要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源的问题与主题无关”。尝试用python、pandas等语言搜索内存映射。欢迎使用stackoverflow。请提供您所需的详细信息,或者接受您目前所获得的答案。好的,谢谢,但现在问题不同了,使用Dask时,我最小化了ram使用量,但现在我将使用pandas统计功能,而使用Dask时,我不能全部使用。我该怎么办?非常感谢谢谢,你的建议也很有用,在Windows中有一个简单的方法可以做到这一点吗?非常感谢你