Python 转换Dask do-compute()时性能下降

Python 转换Dask do-compute()时性能下降,python,pandas,dask,Python,Pandas,Dask,我正在用python阅读一个大的文本文件 使用Dask提高内存性能 但是当使用df.compute()将Dask数据帧转换为熊猫时。因为我需要通过熊猫执行很多转换 我检查df.compute()之后的内存使用率(guppy3)是否提高了5倍 df=dd.read_csv('some_big_file-Copy.csv',sep='|',names=names) j=hpy() 打印(j.heap()) ##只检查了45mb内存 df=df.compute() j=hpy() 打印(j.heap(

我正在用python阅读一个大的文本文件

使用Dask提高内存性能

但是当使用df.compute()将Dask数据帧转换为熊猫时。因为我需要通过熊猫执行很多转换

我检查df.compute()之后的内存使用率(guppy3)是否提高了5倍

df=dd.read_csv('some_big_file-Copy.csv',sep='|',names=names)
j=hpy()
打印(j.heap())
##只检查了45mb内存
df=df.compute()
j=hpy()
打印(j.heap())
##检查了近230mb的内存使用情况

我缺少什么?

运行
df=df.compute()
会将数据帧放入内存,而在数据帧之前是
惰性的,因此Python/dask只知道如何访问数据帧,但不将其加载到内存中。

那么如何以这种方式在数据帧中使用转换?与使用pandas的方式相同,直到最后一次计算,您将在其中添加
.compute
。请参见本教程: