Apache spark Dataproc群集创建失败，免费谷歌云积分_Apache Spark_Google Cloud Platform_Jupyter Notebook_Google Cloud Dataproc

Apache spark Dataproc群集创建失败，免费谷歌云积分

apache-spark google-cloud-platform jupyter-notebook

Apache spark Dataproc群集创建失败，免费谷歌云积分,apache-spark,google-cloud-platform,jupyter-notebook,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Jupyter Notebook,Google Cloud Dataproc,我正在使用谷歌云的免费积分。我遵循了，但是当我运行下面的命令时，我有一个关于存储容量的错误 gcloud beta dataproc集群创建${CLUSTER\u NAME}\ --region=${region}\ --区域=${zone}\ --图像版本=1.5\ --主机类型=n1-standard-4\ --工人机器类型=n1-standard-4\ --bucket=${bucket_NAME}\ --可选组件=巨蟒、朱庇特\ --启用组件网关\ --元数据“PIP_PACKAGES=

我正在使用谷歌云的免费积分。我遵循了，但是当我运行下面的命令时，我有一个关于存储容量的错误

gcloud beta dataproc集群创建${CLUSTER\u NAME}\
--region=${region}\
--区域=${zone}\
--图像版本=1.5\
--主机类型=n1-standard-4\
--工人机器类型=n1-standard-4\
--bucket=${bucket_NAME}\
--可选组件=巨蟒、朱庇特\
--启用组件网关\
--元数据“PIP_PACKAGES=google cloud bigquery google cloud storage”\
--初始化操作gs://goog dataproc初始化操作-${REGION}/python/pip-install.sh

你知道怎么解决这个问题吗？我将

n1-standard-4

更改为

n1-standard-1

，但无法修复它。但是，当我删除

--image version=1.5

时，该命令起作用。这会给程序的其余部分带来任何问题吗

当我点击JupyterLab链接时，我也从web界面上看不到Dataproc集群上可用内核中的Python3图标。我只有Python2，它一直在说与服务器的连接已断开

下面是JupyterLab错误的图片：

您看到了一个关于存储容量的错误，因为在1.5映像版本中，Dataproc使用更大的1000 GiB磁盘作为主节点和工作节点以提高性能。您可以通过使用

--master boot disk size=100GB

和

--worker boot disk size=100GB

命令标志来减小磁盘大小：

gcloud beta dataproc集群创建${CLUSTER\u NAME}\
--region=${region}\
--区域=${zone}\
--图像版本=1.5\
--主机类型=n1-standard-4\
--主引导磁盘大小=100GB\
--工人机器类型=n1-standard-4\
--工作启动磁盘大小=100GB\
--bucket=${bucket_NAME}\
--可选组件=巨蟒、朱庇特\
--启用组件网关\
--元数据“PIP_PACKAGES=google cloud bigquery google cloud storage”\
--初始化操作gs://goog dataproc初始化操作-${REGION}/python/pip-install.sh

当您删除

--image version=1.5

标志时，此命令使用默认的1.3映像版本，默认情况下不支持Python 3，这就是为什么您在JupyterLab中看不到Python 3内核的原因。

感谢您宝贵的反馈。我尝试了您的建议，但出现以下错误：正在等待群集创建操作。。。⠛ 警告：对于没有本地SSD的PD标准，我们强烈建议配置1TB或更大的容量，以确保始终如一的高I/O性能。有关磁盘I/O性能的信息，请参阅ocs/disks/performance。正在等待群集创建操作…完成。错误：（gcloud.beta.dataproc.clusters.create）操作[projects/-/-/-/-]失败：等待实例m ysamc3-m在中报告超时..只是为了提供更新。我通过创建一个单节点集群解决了这个问题。现在我可以使用jupyterlab和notebook 3。我还可以成功地运行教程。我唯一的问题是：教程说代码将由Python3内核（而不是PySpark内核）运行。这就是为什么要花这么长时间才能将查询结果从big query返回到Jupyter notebook的原因吗？如何通过这种方法提高查询的运行速度？要提高查询执行速度，通常需要增加集群大小，尤其是在使用单节点集群的情况下。您可以尝试为主节点和工作节点使用带有

e2-standard-2

机器类型的2-worker集群-也许它可以容纳100 GiB引导磁盘的免费积分。