使用现有dataproc群集运行dask_Dask_Google Cloud Dataproc_Dask Distributed

使用现有dataproc群集运行dask

dask

使用现有dataproc群集运行dask,dask,google-cloud-dataproc,dask-distributed,Dask,Google Cloud Dataproc,Dask Distributed,我有一个运行在谷歌云平台上的dataproc集群。我打算在dask客户机中传递这个集群，而不是初始化一个新的dask集群但是，我不能直接使用我的dataproc集群 #Instead of : cluster = YarnCluster(environment='environment.tar.gz',worker_vcores=2, worker_memory="8GiB") cluster.scale(10) client = Client(cluster) #Directly usin

我有一个运行在谷歌云平台上的dataproc集群。我打算在dask客户机中传递这个集群，而不是初始化一个新的dask集群

但是，我不能直接使用我的dataproc集群

#Instead of :
cluster = YarnCluster(environment='environment.tar.gz',worker_vcores=2, worker_memory="8GiB")
cluster.scale(10)
client = Client(cluster)

#Directly using my dataproc cluster:
client = Client(my-dataproc-cluster)

DataProc创建了一个新的Hadoop集群，

dask-warn

用于创建在Hadoop集群内部运行的dask集群（无论在哪里）。要正常运行，它需要正确设置python环境和配置，就像hadoop上的任何其他工具一样（包括spark）

我们没有特定于dataproc的指南，但AWS等效EMR的指南如下：

对于在DataProc上部署，您可能会创建一个等效于EMR引导操作的工具：

您现在有DataProc指南吗？我很想尝试Dask而不是Spark，但是由于关于如何启动的文档有限，我现在可能不得不放弃。Dataproc现在有一个Dask的初始化操作！