Google cloud dataproc 无法在dataproc上运行datalab作业_Google Cloud Dataproc_Google Cloud Datalab

Google cloud dataproc 无法在dataproc上运行datalab作业

Google cloud dataproc 无法在dataproc上运行datalab作业,google-cloud-dataproc,google-cloud-datalab,Google Cloud Dataproc,Google Cloud Datalab,我已使用datalab初始化操作将datalab设置为在dataproc主节点上运行： gcloud dataproc clusters create <CLUSTER_NAME> \ --initialization-actions gs://<GCS_BUCKET>/datalab/datalab.sh \ --scopes cloud-platform gcloud dataproc集群创建\ --初始化操作gs:///datalab/datalab.sh\ --

我已使用datalab初始化操作将datalab设置为在dataproc主节点上运行：

gcloud dataproc clusters create <CLUSTER_NAME> \
--initialization-actions gs://<GCS_BUCKET>/datalab/datalab.sh \
--scopes cloud-platform

gcloud dataproc集群创建\
--初始化操作gs:///datalab/datalab.sh\
--scopes云平台

从历史上看，这是可行的。然而，从30.5开始，我再也无法运行任何代码，无论多么简单。我只得到“运行”进度条。没有超时，没有错误消息。我如何调试它？

我刚刚创建了一个集群，它似乎对我有用

仅仅看到“正在运行”通常意味着集群中没有足够的空间来调度Spark应用程序。Datalab在Python加载时加载PySpark，这将创建一个应用程序。任何代码都将阻塞，直到计划纱线应用

在默认的2节点n1-standard-4工作集群上，使用默认配置。只能有一个火花应用。通过设置

--properties spark.warn.am.memory=1g

或使用更大的群集，您应该能够安装两台笔记本电脑，但最终您仍将达到每个群集运行笔记本电脑的限制。

我还注意到，我得到了：“无法交叉验证小部件前端和后端版本。错误：尝试交叉验证小部件前端和后端版本时超时。在manager base.js:180“嘿，anders，我建立了一个数据实验室集群（--num masters=1--master machine type=n1-highmem-16--master boot disk size=370GB--num master local ssd=1--num workers=4--num preemptible workers=5--worker machine type=n1-highmem-16--scopes=cloud platform）pyspark查询，如sqlContext.createDataFrame，运行良好，我能够获得pyspark dataframe，它只是不停地说“正在运行”。你知道是什么原因吗？谢谢。我已经用与以前完全相同的命令重新创建了群集，并重新创建了连接，现在正在工作。我只能怀疑这是环境问题。谢谢你对笔记本电脑和群集容量的指导。