Python 熊猫-从大型csv文件计算中位数/百分位数
我有一个巨大的csv文件,数百万行。所以我使用Python 熊猫-从大型csv文件计算中位数/百分位数,python,pandas,Python,Pandas,我有一个巨大的csv文件,数百万行。所以我使用chunksize来读取它们以保留内存 我可以计算一列字节\u alloc的总和,如下所示 tf = pd.read_csv("../Samples/analytics/trace.csv", chunksize=1024*25) tot_mem_usage = 0 for tf in df: tot_mem_usage += df.sum()["bytes_alloc"] 我如何计算多个区块的中位数或其他百分位数 如果您只想计算平均值,您可
chunksize
来读取它们以保留内存
我可以计算一列字节\u alloc
的总和,如下所示
tf = pd.read_csv("../Samples/analytics/trace.csv", chunksize=1024*25)
tot_mem_usage = 0
for tf in df:
tot_mem_usage += df.sum()["bytes_alloc"]
我如何计算多个区块的中位数或其他百分位数 如果您只想计算
平均值
,您可以查看
您几乎没有阅读时间(请参阅上的talk):
Blaze支持数据帧上的简单操作,如.mean()
:
我不相信中位数可以很容易地递增计算。您可能想看看这个:如果文件中的数据由一个不太大的整数子集组成,您可以对其进行分类(“构建直方图”),然后根据分类单元计算中值。