Apache spark PySpark在googleclouddataproc中运行太慢_Apache Spark_Google Cloud Platform_Google Cloud Dataproc

Apache spark PySpark在googleclouddataproc中运行太慢

apache-spark google-cloud-platform

Apache spark PySpark在googleclouddataproc中运行太慢,apache-spark,google-cloud-platform,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Google Cloud Dataproc,我在Google Cloud Dataproc集群中部署了一个PySpark ML模型，它运行了一个多小时，但我的数据大约为800 MB 在我的SparkSession上有什么需要宣布为大师的东西吗？我设置了默认选项“local”。当您将localdeploy mode选项传递到SparkContext时，它会在单个VM上本地执行应用程序，为了避免这种情况，您不应在中传递任何选项-它将使用Dataproc预先配置的属性，并在使用所有群集资源/节点的纱线上运行应用程序

我在Google Cloud Dataproc集群中部署了一个PySpark ML模型，它运行了一个多小时，但我的数据大约为800 MB

在我的SparkSession上有什么需要宣布为大师的东西吗？我设置了默认选项“local”。

当您将

local

deploy mode选项传递到

SparkContext

时，它会在单个VM上本地执行应用程序，为了避免这种情况，您不应在中传递任何选项-它将使用Dataproc预先配置的属性，并在使用所有群集资源/节点的纱线上运行应用程序