使用现有dataproc群集运行dask

使用现有dataproc群集运行dask,dask,google-cloud-dataproc,dask-distributed,Dask,Google Cloud Dataproc,Dask Distributed,我有一个运行在谷歌云平台上的dataproc集群。我打算在dask客户机中传递这个集群,而不是初始化一个新的dask集群 但是,我不能直接使用我的dataproc集群 #Instead of : cluster = YarnCluster(environment='environment.tar.gz',worker_vcores=2, worker_memory="8GiB") cluster.scale(10) client = Client(cluster) #Directly usin

我有一个运行在谷歌云平台上的dataproc集群。我打算在dask客户机中传递这个集群,而不是初始化一个新的dask集群

但是,我不能直接使用我的dataproc集群

#Instead of :
cluster = YarnCluster(environment='environment.tar.gz',worker_vcores=2, worker_memory="8GiB")
cluster.scale(10)
client = Client(cluster)

#Directly using my dataproc cluster:
client = Client(my-dataproc-cluster)

DataProc创建了一个新的Hadoop集群,
dask-warn
用于创建在Hadoop集群内部运行的dask集群(无论在哪里)。要正常运行,它需要正确设置python环境和配置,就像hadoop上的任何其他工具一样(包括spark)

我们没有特定于dataproc的指南,但AWS等效EMR的指南如下:


对于在DataProc上部署,您可能会创建一个等效于EMR引导操作的工具:

您现在有DataProc指南吗?我很想尝试Dask而不是Spark,但是由于关于如何启动的文档有限,我现在可能不得不放弃。Dataproc现在有一个Dask的初始化操作!