在Dask中使用所有内核

在Dask中使用所有内核,dask,Dask,我正在使用24个vCPU开发一个google云计算实例。运行的代码如下 import dask.dataframe as dd from distributed import Client client = Client() #read data logd = (dd.read_csv('vol/800000test', sep='\t', parse_dates=['Date']) .set_index('idHttp') .rename(columns=

我正在使用24个vCPU开发一个google云计算实例。运行的代码如下

import dask.dataframe as dd
from distributed import Client
client = Client()

#read data
logd = (dd.read_csv('vol/800000test', sep='\t', parse_dates=['Date'])
         .set_index('idHttp')
         .rename(columns={'User Agent Type':'UA'})
         .categorize())
当我运行它时(这也是我加载数据后进行的后验数据分析的情况),我看到使用了11个核,有时是4个


有什么方法可以更好地控制这一点并充分利用核心吗?

read\u csv将根据chunksize参数将文件分割成块,每个输入文件至少一个块。您只读取了一个文件,似乎得到了四个分区(即大小<4*64MB)。对于数据量而言,这可能是合理的,而许多小任务的额外并行化可能只会增加开销


不过,您可以更改blocksize参数并查看它与您的区别,或者查看传递多个文件时发生的情况,例如,
read\u csv('vol/*test')
。或者,您可以在调用中将分区设置为。

图片看起来非常漂亮。我可以知道如何画上面的图片吗?