在Dask中使用所有内核_Dask - Fatal编程技术网

在Dask中使用所有内核

dask

在Dask中使用所有内核,dask,Dask,我正在使用24个vCPU开发一个google云计算实例。运行的代码如下 import dask.dataframe as dd from distributed import Client client = Client() #read data logd = (dd.read_csv('vol/800000test', sep='\t', parse_dates=['Date']) .set_index('idHttp') .rename(columns=

我正在使用24个vCPU开发一个google云计算实例。运行的代码如下

import dask.dataframe as dd
from distributed import Client
client = Client()

#read data
logd = (dd.read_csv('vol/800000test', sep='\t', parse_dates=['Date'])
         .set_index('idHttp')
         .rename(columns={'User Agent Type':'UA'})
         .categorize())

当我运行它时（这也是我加载数据后进行的后验数据分析的情况），我看到使用了11个核，有时是4个

有什么方法可以更好地控制这一点并充分利用核心吗？

read\u csv将根据chunksize参数将文件分割成块，每个输入文件至少一个块。您只读取了一个文件，似乎得到了四个分区（即大小<4*64MB）。对于数据量而言，这可能是合理的，而许多小任务的额外并行化可能只会增加开销

不过，您可以更改blocksize参数并查看它与您的区别，或者查看传递多个文件时发生的情况，例如，

read\u csv（'vol/*test'）

。或者，您可以在调用中将分区设置为。

图片看起来非常漂亮。我可以知道如何画上面的图片吗？