Python 同时使用多个工作者Dask计算多个任务_Python_Dataframe_Dask_Dask Distributed

Python 同时使用多个工作者Dask计算多个任务

python dataframe dask

Python 同时使用多个工作者Dask计算多个任务,python,dataframe,dask,dask-distributed,Python,Dataframe,Dask,Dask Distributed,我有两个工人（A和B）拥有df，我正试图通过以下任务计算多个描述性统计数据： Task 1: df.isnull().sum() Task 2: df['column'].value_counts() 我想将task1分配给A和task2分配给B，以使用dask并行计算从文档来看，如何实现这一点并不十分清楚。我有以下代码： future = client.compute(task1, task2, workers={task1: 'ipofA',task2: 'ipofB' }) futur

我有两个工人（

和

）拥有

df

，我正试图通过以下任务计算多个描述性统计数据：

Task 1: df.isnull().sum()
Task 2: df['column'].value_counts()

我想将

task1

分配给

和

task2

分配给

，以使用dask并行计算

从文档来看，如何实现这一点并不十分清楚。我有以下代码：

future = client.compute(task1, task2, workers={task1: 'ipofA',task2: 'ipofB' })
future.result()

但这给了我以下错误：

ValueError: The truth value of a Series is ambiguous. Use a.any() or a.all().

第二个问题是如何将

task1

分配给机器A和B，以及

task2

分配给机器C？

以下代码应该可以工作：

x = df.isnull().sum()
y = df['column'].value_counts()
x, y = dask.compute(x, y)

第二个问题是如何将task1分配给机器A和B，将task2分配给机器C

你不应该。你应该让达斯克决定这件事，因为它认为这是最好的