Apache spark PySpark在googleclouddataproc中运行太慢
我在Google Cloud Dataproc集群中部署了一个PySpark ML模型,它运行了一个多小时,但我的数据大约为800 MBApache spark PySpark在googleclouddataproc中运行太慢,apache-spark,google-cloud-platform,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Google Cloud Dataproc,我在Google Cloud Dataproc集群中部署了一个PySpark ML模型,它运行了一个多小时,但我的数据大约为800 MB 在我的SparkSession上有什么需要宣布为大师的东西吗?我设置了默认选项“local”。当您将localdeploy mode选项传递到SparkContext时,它会在单个VM上本地执行应用程序,为了避免这种情况,您不应在中传递任何选项-它将使用Dataproc预先配置的属性,并在使用所有群集资源/节点的纱线上运行应用程序
在我的SparkSession上有什么需要宣布为大师的东西吗?我设置了默认选项“local”。当您将
local
deploy mode选项传递到SparkContext
时,它会在单个VM上本地执行应用程序,为了避免这种情况,您不应在中传递任何选项-它将使用Dataproc预先配置的属性,并在使用所有群集资源/节点的纱线上运行应用程序