Apache spark Spark作业因数据太小而长时间运行_Apache Spark_Pyspark_Distributed Computing_Distributed System

Apache spark Spark作业因数据太小而长时间运行

apache-spark pyspark

Apache spark Spark作业因数据太小而长时间运行,apache-spark,pyspark,distributed-computing,distributed-system,Apache Spark,Pyspark,Distributed Computing,Distributed System,我在master上运行的spark代码如下： import pyspark from pyspark import SparkContext sc =SparkContext() nums= sc.parallelize([1,2,3,4]) nums.collect() 我的群集配置：独立/客户端模式下的3个节点（1个主节点+2个从节点） Master config 600mb RAM, 1CPU Slave1 config 600mb RAM, 1CPU Slave2 config 16

我在master上运行的spark代码如下：

import pyspark
from pyspark import SparkContext
sc =SparkContext()
nums= sc.parallelize([1,2,3,4])
nums.collect()

我的群集配置：独立/客户端模式下的3个节点（1个主节点+2个从节点）

Master config 600mb RAM, 1CPU
Slave1 config 600mb RAM, 1CPU
Slave2 config 16GB RAM, 4CPU

当我使用命令提交作业时，我有一个长期运行的作业

spark提交--master spark://:7077--num executors=6--conf spark.driver.memory=500M--conf spark.executor.memory=6G--deploy mode client test.py

屏幕上的日志：

20/05/11 19:43:09 INFO BlockManagerMaster: Removal of executor 105 requested
20/05/11 19:43:09 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20200511193954-0001/106 on worker-20200511192038--MASTER_IP:44249 (MASTER_IP:44249) with 4 core(s)
20/05/11 19:43:09 INFO CoarseGrainedSchedulerBackend$DriverEndpoint: Asked to remove non-existent executor 105
20/05/11 19:43:09 INFO BlockManagerMasterEndpoint: Trying to remove executor 105 from BlockManagerMaster.
20/05/11 19:43:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20200511193954-0001/106 on hostPort MASTER_IP:44249 with 4 core(s), 6.0 GB RAM
^C20/05/11 19:43:58 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

尝试的解决方案：

我尝试添加一个新的集群

Slave3

，因为上面搜索到的关于资源不足的错误，但是这个错误仍然存在

是因为

主节点节点中的内存较少吗？？这里有什么建议吗？
只需先尝试以最低要求运行即可。还要将部署模式更改为集群以使用工作节点。阅读更多
spark提交--master spark://:7077--num executors=2--conf spark.driver.memory=100M--conf spark.executor.memory=200M--deploy mode cluster test.py
我不知道它为什么被降级？我是新来的，所以寻求少量输入可能的副本，我已经检查过了，从机工作正常，在客户机模式下工作，并且它也不能与最小配置一起工作
spark-submit --master spark://<MASTER_IP>:7077 --num-executors=2 --conf spark.driver.memory=100M  --conf spark.executor.memory=200M --deploy-mode cluster test.py