Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Dataproc群集创建失败,免费谷歌云积分_Apache Spark_Google Cloud Platform_Jupyter Notebook_Google Cloud Dataproc - Fatal编程技术网

Apache spark Dataproc群集创建失败,免费谷歌云积分

Apache spark Dataproc群集创建失败,免费谷歌云积分,apache-spark,google-cloud-platform,jupyter-notebook,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Jupyter Notebook,Google Cloud Dataproc,我正在使用谷歌云的免费积分。我遵循了,但是当我运行下面的命令时,我有一个关于存储容量的错误 gcloud beta dataproc集群创建${CLUSTER\u NAME}\ --region=${region}\ --区域=${zone}\ --图像版本=1.5\ --主机类型=n1-standard-4\ --工人机器类型=n1-standard-4\ --bucket=${bucket_NAME}\ --可选组件=巨蟒、朱庇特\ --启用组件网关\ --元数据“PIP_PACKAGES=

我正在使用谷歌云的免费积分。我遵循了,但是当我运行下面的命令时,我有一个关于存储容量的错误

gcloud beta dataproc集群创建${CLUSTER\u NAME}\
--region=${region}\
--区域=${zone}\
--图像版本=1.5\
--主机类型=n1-standard-4\
--工人机器类型=n1-standard-4\
--bucket=${bucket_NAME}\
--可选组件=巨蟒、朱庇特\
--启用组件网关\
--元数据“PIP_PACKAGES=google cloud bigquery google cloud storage”\
--初始化操作gs://goog dataproc初始化操作-${REGION}/python/pip-install.sh
你知道怎么解决这个问题吗?我将
n1-standard-4
更改为
n1-standard-1
,但无法修复它。但是,当我删除
--image version=1.5
时,该命令起作用。这会给程序的其余部分带来任何问题吗

当我点击JupyterLab链接时,我也从web界面上看不到Dataproc集群上可用内核中的Python3图标。我只有Python2,它一直在说与服务器的连接已断开


下面是JupyterLab错误的图片:

您看到了一个关于存储容量的错误,因为在1.5映像版本中,Dataproc使用更大的1000 GiB磁盘作为主节点和工作节点以提高性能。您可以通过使用
--master boot disk size=100GB
--worker boot disk size=100GB
命令标志来减小磁盘大小:

gcloud beta dataproc集群创建${CLUSTER\u NAME}\
--region=${region}\
--区域=${zone}\
--图像版本=1.5\
--主机类型=n1-standard-4\
--主引导磁盘大小=100GB\
--工人机器类型=n1-standard-4\
--工作启动磁盘大小=100GB\
--bucket=${bucket_NAME}\
--可选组件=巨蟒、朱庇特\
--启用组件网关\
--元数据“PIP_PACKAGES=google cloud bigquery google cloud storage”\
--初始化操作gs://goog dataproc初始化操作-${REGION}/python/pip-install.sh

当您删除
--image version=1.5
标志时,此命令使用默认的1.3映像版本,默认情况下不支持Python 3,这就是为什么您在JupyterLab中看不到Python 3内核的原因。

感谢您宝贵的反馈。我尝试了您的建议,但出现以下错误:正在等待群集创建操作。。。⠛ 警告:对于没有本地SSD的PD标准,我们强烈建议配置1TB或更大的容量,以确保始终如一的高I/O性能。有关磁盘I/O性能的信息,请参阅ocs/disks/performance。正在等待群集创建操作…完成。错误:(gcloud.beta.dataproc.clusters.create)操作[projects/-/-/-/-]失败:等待实例m ysamc3-m在中报告超时..只是为了提供更新。我通过创建一个单节点集群解决了这个问题。现在我可以使用jupyterlab和notebook 3。我还可以成功地运行教程。我唯一的问题是:教程说代码将由Python3内核(而不是PySpark内核)运行。这就是为什么要花这么长时间才能将查询结果从big query返回到Jupyter notebook的原因吗?如何通过这种方法提高查询的运行速度?要提高查询执行速度,通常需要增加集群大小,尤其是在使用单节点集群的情况下。您可以尝试为主节点和工作节点使用带有
e2-standard-2
机器类型的2-worker集群-也许它可以容纳100 GiB引导磁盘的免费积分。