Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/actionscript-3/7.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/kubernetes/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud dataproc 无法在dataproc上运行datalab作业_Google Cloud Dataproc_Google Cloud Datalab - Fatal编程技术网

Google cloud dataproc 无法在dataproc上运行datalab作业

Google cloud dataproc 无法在dataproc上运行datalab作业,google-cloud-dataproc,google-cloud-datalab,Google Cloud Dataproc,Google Cloud Datalab,我已使用datalab初始化操作将datalab设置为在dataproc主节点上运行: gcloud dataproc clusters create <CLUSTER_NAME> \ --initialization-actions gs://<GCS_BUCKET>/datalab/datalab.sh \ --scopes cloud-platform gcloud dataproc集群创建\ --初始化操作gs:///datalab/datalab.sh\ --

我已使用datalab初始化操作将datalab设置为在dataproc主节点上运行:

gcloud dataproc clusters create <CLUSTER_NAME> \
--initialization-actions gs://<GCS_BUCKET>/datalab/datalab.sh \
--scopes cloud-platform
gcloud dataproc集群创建\
--初始化操作gs:///datalab/datalab.sh\
--scopes云平台

从历史上看,这是可行的。然而,从30.5开始,我再也无法运行任何代码,无论多么简单。我只得到“运行”进度条。没有超时,没有错误消息。我如何调试它?

我刚刚创建了一个集群,它似乎对我有用

仅仅看到“正在运行”通常意味着集群中没有足够的空间来调度Spark应用程序。Datalab在Python加载时加载PySpark,这将创建一个应用程序。任何代码都将阻塞,直到计划纱线应用


在默认的2节点n1-standard-4工作集群上,使用默认配置。只能有一个火花应用。通过设置
--properties spark.warn.am.memory=1g
或使用更大的群集,您应该能够安装两台笔记本电脑,但最终您仍将达到每个群集运行笔记本电脑的限制。

我还注意到,我得到了:“无法交叉验证小部件前端和后端版本。错误:尝试交叉验证小部件前端和后端版本时超时。在manager base.js:180“嘿,anders,我建立了一个数据实验室集群(--num masters=1--master machine type=n1-highmem-16--master boot disk size=370GB--num master local ssd=1--num workers=4--num preemptible workers=5--worker machine type=n1-highmem-16--scopes=cloud platform)pyspark查询,如sqlContext.createDataFrame,运行良好,我能够获得pyspark dataframe,它只是不停地说“正在运行”。你知道是什么原因吗?谢谢。我已经用与以前完全相同的命令重新创建了群集,并重新创建了连接,现在正在工作。我只能怀疑这是环境问题。谢谢你对笔记本电脑和群集容量的指导。