Python 在本地使用Dask时是否需要初始化客户端?

Python 在本地使用Dask时是否需要初始化客户端?,python,dask,dask-dataframe,Python,Dask,Dask Dataframe,我阅读了Dask教程,它们总是从客户机的初始化开始: from dask.distributed import Client client = Client(n_workers=4) 我最感兴趣的是使用Dask的read_csv函数在笔记本电脑上并行读取数据帧 import dask.dataframe as dd df = dd.read_csv('trainset.csv').compute() 尽管将n_workers设置为4,但Dask在读取csv时使用所有内核。无论是否初始化客户

我阅读了Dask教程,它们总是从客户机的初始化开始:

from dask.distributed import Client

client = Client(n_workers=4)
我最感兴趣的是使用Dask的read_csv函数在笔记本电脑上并行读取数据帧

import dask.dataframe as dd
df = dd.read_csv('trainset.csv').compute()

尽管将n_workers设置为4,但Dask在读取csv时使用所有内核。无论是否初始化客户端,都是相同的。当我在本地使用Dask并且仅用于读取文件时,是否需要初始化客户端?它是用Dask隐式初始化的吗?

Dask的默认调度程序是简单的“线程”调度程序,不能在多台机器上运行。但是,如果您创建了一个分布式
客户机
,那么它将成为默认值—即使它是一个仅在一台计算机上运行的“本地”客户机。这是因为线程调度程序出现得更早,并且已经是默认的,而且还因为安装分布式需要许多额外的依赖项,例如
tornado
。在某些有限的情况下,线程调度程序也可以更快,因为它更简单,但分布式调度程序具有更多的功能和诊断功能,因此通常推荐用于所有用途

较旧的单机调度器:


分布式计划程序,也可以在一台机器上使用:

因此,如果我理解正确,在一台机器上工作时,我不需要初始化客户端?这取决于您-添加带有更多信息的链接以帮助您选择。