Python 熊猫-逐列处理大型文件

Python 熊猫-逐列处理大型文件,python,pandas,Python,Pandas,我有一个巨大的数据框1194行14.000.000列。我需要每列的总和,并且仅当总和大于1时才保存列名和总和。当我尝试加载文本文件(大+30gb)时,进程被终止。该文本文件是tab-delimerated的,如下所示: cell 17472131 17472132 17472133.. cell_0 1 0 1 cell_1 0 0 0 cell_2 0 1 1 cell_3 1 0 0 . . . 有没有一种方法可以像列一样执行此操作,这样我就不会占用太多内存?pandas.read\u c

我有一个巨大的数据框1194行14.000.000列。我需要每列的总和,并且仅当总和大于1时才保存列名和总和。当我尝试加载文本文件(大+30gb)时,进程被终止。该文本文件是tab-delimerated的,如下所示:

cell 17472131 17472132 17472133..
cell_0 1 0 1
cell_1 0 0 0
cell_2 0 1 1
cell_3 1 0 0
.
.
.
有没有一种方法可以像列一样执行此操作,这样我就不会占用太多内存?

pandas.read\u csv()
有参数
skiprows
nrows
来读取特定的行块


我建议设置总和数组(大小为14mln),然后有一个周期,一次读取几行,更新总和,然后拖出接下来的几行。

不要使用pandas,请使用SQL或Dask。请参阅