Python 同时使用多个工作者Dask计算多个任务
我有两个工人(Python 同时使用多个工作者Dask计算多个任务,python,dataframe,dask,dask-distributed,Python,Dataframe,Dask,Dask Distributed,我有两个工人(A和B)拥有df,我正试图通过以下任务计算多个描述性统计数据: Task 1: df.isnull().sum() Task 2: df['column'].value_counts() 我想将task1分配给A和task2分配给B,以使用dask并行计算 从文档来看,如何实现这一点并不十分清楚。我有以下代码: future = client.compute(task1, task2, workers={task1: 'ipofA',task2: 'ipofB' }) futur
A
和B
)拥有df
,我正试图通过以下任务计算多个描述性统计数据:
Task 1: df.isnull().sum()
Task 2: df['column'].value_counts()
我想将task1
分配给A
和task2
分配给B
,以使用dask并行计算
从文档来看,如何实现这一点并不十分清楚。我有以下代码:
future = client.compute(task1, task2, workers={task1: 'ipofA',task2: 'ipofB' })
future.result()
但这给了我以下错误:
ValueError: The truth value of a Series is ambiguous. Use a.any() or a.all().
第二个问题是如何将
task1
分配给机器A和B,以及task2
分配给机器C?以下代码应该可以工作:
x = df.isnull().sum()
y = df['column'].value_counts()
x, y = dask.compute(x, y)
第二个问题是如何将task1分配给机器A和B,将task2分配给机器C
你不应该。你应该让达斯克决定这件事,因为它认为这是最好的