Pyspark 仅具有可抢占工作进程的Dataproc群集_Pyspark_Google Cloud Platform_Google Cloud Dataproc

Pyspark 仅具有可抢占工作进程的Dataproc群集

pyspark google-cloud-platform

Pyspark 仅具有可抢占工作进程的Dataproc群集,pyspark,google-cloud-platform,google-cloud-dataproc,Pyspark,Google Cloud Platform,Google Cloud Dataproc,我目前正在试用Dataproc，并按照Google教程使用Jupyter和Spark构建了一个Hadoop集群。一切顺利。我使用以下命令： gcloud dataproc clusters create test-cluster \ --project proj-name \ --bucket notebooks-storage \ --initialization-actions \ gs://dataproc-initialization-action

我目前正在试用Dataproc，并按照Google教程使用Jupyter和Spark构建了一个Hadoop集群。一切顺利。我使用以下命令：

gcloud dataproc clusters create test-cluster \
    --project proj-name \
    --bucket notebooks-storage \
    --initialization-actions \
        gs://dataproc-initialization-actions/jupyter/jupyter.sh

此命令启动一个包含一个主节点和两个工作节点的集群（VM类型：n1-standad-4）

我尝试添加以下标志：

    --num-preemptible-workers 2

但它只在之前的两个标准虚拟机上增加了两个可抢占工人。我希望我的所有员工都能成为可抢占的虚拟机，因为我所有的数据都存储在谷歌云存储上，我不在乎Hadoop存储的大小

这听起来像是在做什么？有没有办法做到这一点

谢谢

总的来说，拥有一个完全或主要是PVM的集群不是一个好主意。PVM不能保证它们在创建群集时可用，甚至在您的群集N小时后仍然可用。抢占，对作业（尤其是运行数小时的作业）非常不利。此外，即使您的数据位于地面军事系统中，任何洗牌操作都会导致数据写入本地磁盘。将PVM视为补充计算能力

出于这些原因和其他原因，我们建议的比例最多为1:1

由于您使用的是笔记本电脑，另一种选择是使用单节点群集：