Pyspark 仅具有可抢占工作进程的Dataproc群集

Pyspark 仅具有可抢占工作进程的Dataproc群集,pyspark,google-cloud-platform,google-cloud-dataproc,Pyspark,Google Cloud Platform,Google Cloud Dataproc,我目前正在试用Dataproc,并按照Google教程使用Jupyter和Spark构建了一个Hadoop集群。一切顺利。我使用以下命令: gcloud dataproc clusters create test-cluster \ --project proj-name \ --bucket notebooks-storage \ --initialization-actions \ gs://dataproc-initialization-action

我目前正在试用Dataproc,并按照Google教程使用Jupyter和Spark构建了一个Hadoop集群。一切顺利。我使用以下命令:

gcloud dataproc clusters create test-cluster \
    --project proj-name \
    --bucket notebooks-storage \
    --initialization-actions \
        gs://dataproc-initialization-actions/jupyter/jupyter.sh
此命令启动一个包含一个主节点和两个工作节点的集群(VM类型:n1-standad-4)

我尝试添加以下标志:

    --num-preemptible-workers 2
但它只在之前的两个标准虚拟机上增加了两个可抢占工人。我希望我的所有员工都能成为可抢占的虚拟机,因为我所有的数据都存储在谷歌云存储上,我不在乎Hadoop存储的大小

这听起来像是在做什么?有没有办法做到这一点


谢谢

总的来说,拥有一个完全或主要是PVM的集群不是一个好主意。PVM不能保证它们在创建群集时可用,甚至在您的群集N小时后仍然可用。抢占,对作业(尤其是运行数小时的作业)非常不利。此外,即使您的数据位于地面军事系统中,任何洗牌操作都会导致数据写入本地磁盘。将PVM视为补充计算能力

出于这些原因和其他原因,我们建议的比例最多为1:1

由于您使用的是笔记本电脑,另一种选择是使用单节点群集: