Python 熊猫-从大型csv文件计算中位数/百分位数

Python 熊猫-从大型csv文件计算中位数/百分位数,python,pandas,Python,Pandas,我有一个巨大的csv文件,数百万行。所以我使用chunksize来读取它们以保留内存 我可以计算一列字节\u alloc的总和,如下所示 tf = pd.read_csv("../Samples/analytics/trace.csv", chunksize=1024*25) tot_mem_usage = 0 for tf in df: tot_mem_usage += df.sum()["bytes_alloc"] 我如何计算多个区块的中位数或其他百分位数 如果您只想计算平均值,您可

我有一个巨大的csv文件,数百万行。所以我使用
chunksize
来读取它们以保留内存

我可以计算一列
字节\u alloc
的总和,如下所示

tf = pd.read_csv("../Samples/analytics/trace.csv", chunksize=1024*25)

tot_mem_usage = 0
for tf in df:
  tot_mem_usage += df.sum()["bytes_alloc"]

我如何计算多个区块的中位数或其他百分位数

如果您只想计算
平均值
,您可以查看

您几乎没有阅读时间(请参阅上的talk):

Blaze支持数据帧上的简单操作,如
.mean()


我不相信中位数可以很容易地递增计算。您可能想看看这个:如果文件中的数据由一个不太大的整数子集组成,您可以对其进行分类(“构建直方图”),然后根据分类单元计算中值。