Python 熊猫-从大型csv文件计算中位数/百分位数_Python_Pandas

Python 熊猫-从大型csv文件计算中位数/百分位数

python pandas

Python 熊猫-从大型csv文件计算中位数/百分位数,python,pandas,Python,Pandas,我有一个巨大的csv文件，数百万行。所以我使用chunksize来读取它们以保留内存我可以计算一列字节\u alloc的总和，如下所示 tf = pd.read_csv("../Samples/analytics/trace.csv", chunksize=1024*25) tot_mem_usage = 0 for tf in df: tot_mem_usage += df.sum()["bytes_alloc"] 我如何计算多个区块的中位数或其他百分位数如果您只想计算平均值，您可

我有一个巨大的csv文件，数百万行。所以我使用

chunksize

来读取它们以保留内存

我可以计算一列

字节\u alloc

的总和，如下所示

tf = pd.read_csv("../Samples/analytics/trace.csv", chunksize=1024*25)

tot_mem_usage = 0
for tf in df:
  tot_mem_usage += df.sum()["bytes_alloc"]

我如何计算多个区块的中位数或其他百分位数

如果您只想计算

平均值

，您可以查看

您几乎没有阅读时间（请参阅上的talk）：

Blaze支持数据帧上的简单操作，如

.mean（）

：

我不相信中位数可以很容易地递增计算。您可能想看看这个：如果文件中的数据由一个不太大的整数子集组成，您可以对其进行分类（“构建直方图”），然后根据分类单元计算中值。