Python 熊猫-逐列处理大型文件_Python_Pandas

Python 熊猫-逐列处理大型文件

python pandas

Python 熊猫-逐列处理大型文件,python,pandas,Python,Pandas,我有一个巨大的数据框1194行14.000.000列。我需要每列的总和，并且仅当总和大于1时才保存列名和总和。当我尝试加载文本文件（大+30gb）时，进程被终止。该文本文件是tab-delimerated的，如下所示： cell 17472131 17472132 17472133.. cell_0 1 0 1 cell_1 0 0 0 cell_2 0 1 1 cell_3 1 0 0 . . . 有没有一种方法可以像列一样执行此操作，这样我就不会占用太多内存？pandas.read\u c

我有一个巨大的数据框1194行14.000.000列。我需要每列的总和，并且仅当总和大于1时才保存列名和总和。当我尝试加载文本文件（大+30gb）时，进程被终止。该文本文件是tab-delimerated的，如下所示：

cell 17472131 17472132 17472133..
cell_0 1 0 1
cell_1 0 0 0
cell_2 0 1 1
cell_3 1 0 0
.
.
.

有没有一种方法可以像列一样执行此操作，这样我就不会占用太多内存？

pandas.read\u csv（）

有参数

skiprows

和

nrows

来读取特定的行块

我建议设置总和数组（大小为14mln），然后有一个周期，一次读取几行，更新总和，然后拖出接下来的几行。

不要使用pandas，请使用SQL或Dask。请参阅