Dask分布式-同一持久数据多个客户端

Dask分布式-同一持久数据多个客户端,dask,dask-distributed,Dask,Dask Distributed,我们正在尝试分布式Dask,以便为前端进行一些繁重的计算和可视化 现在我们有一个使用gunicorn连接到现有分布式Dask集群的工作程序,该工作程序上载当前使用read\u csv读取的数据并保存到集群中 我曾尝试使用pickle从persist数据帧保存未来,但它不起作用 我们希望有多个gunicorn Worker,每个Worker都有一个不同的客户端连接到同一集群并使用相同的数据,但是如果有更多的Worker,每个Worker都会上载一个新的数据帧。听起来您在寻找Dask能够 一种方便的

我们正在尝试分布式Dask,以便为前端进行一些繁重的计算和可视化

现在我们有一个使用gunicorn连接到现有分布式Dask集群的工作程序,该工作程序上载当前使用
read\u csv
读取的数据并保存到集群中

我曾尝试使用pickle从persist数据帧保存未来,但它不起作用


我们希望有多个gunicorn Worker,每个Worker都有一个不同的客户端连接到同一集群并使用相同的数据,但是如果有更多的Worker,每个Worker都会上载一个新的数据帧。

听起来您在寻找Dask能够

一种方便的方法是使用
client.dataset
映射

客户1

client = Client('...')
df = dd.read_csv(...)
client.datasets['my-data'] = df
客户2..n

client = Client('...')  # same scheduler
df = client.datasets['my-data']

这正是我需要的,非常感谢!