Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark PySpark在googleclouddataproc中运行太慢_Apache Spark_Google Cloud Platform_Google Cloud Dataproc - Fatal编程技术网

Apache spark PySpark在googleclouddataproc中运行太慢

Apache spark PySpark在googleclouddataproc中运行太慢,apache-spark,google-cloud-platform,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Google Cloud Dataproc,我在Google Cloud Dataproc集群中部署了一个PySpark ML模型,它运行了一个多小时,但我的数据大约为800 MB 在我的SparkSession上有什么需要宣布为大师的东西吗?我设置了默认选项“local”。当您将localdeploy mode选项传递到SparkContext时,它会在单个VM上本地执行应用程序,为了避免这种情况,您不应在中传递任何选项-它将使用Dataproc预先配置的属性,并在使用所有群集资源/节点的纱线上运行应用程序

我在Google Cloud Dataproc集群中部署了一个PySpark ML模型,它运行了一个多小时,但我的数据大约为800 MB


在我的SparkSession上有什么需要宣布为大师的东西吗?我设置了默认选项“local”。

当您将
local
deploy mode选项传递到
SparkContext
时,它会在单个VM上本地执行应用程序,为了避免这种情况,您不应在中传递任何选项-它将使用Dataproc预先配置的属性,并在使用所有群集资源/节点的纱线上运行应用程序