Apache spark spark提交期间spark历史记录服务器崩溃,历史记录服务器激活时spark提交被终止(独立群集)

Apache spark spark提交期间spark历史记录服务器崩溃,历史记录服务器激活时spark提交被终止(独立群集),apache-spark,pyspark,pycharm,Apache Spark,Pyspark,Pycharm,我使用OpenJDK1.8.0_41-b04和Python 3.8.8(从源代码构建)在Debian最新Docker映像上运行为Hadoop 3.2预构建的Spark 3.1.1。除eventLog选项外,所有spark配置选项均为默认设置: spark.eventLog.enabled true spark.eventLog.dir file:/tmp/spark-events spark.history.fs.logDirectory

我使用OpenJDK1.8.0_41-b04和Python 3.8.8(从源代码构建)在Debian最新Docker映像上运行为Hadoop 3.2预构建的Spark 3.1.1。除eventLog选项外,所有spark配置选项均为默认设置:

spark.eventLog.enabled            true
spark.eventLog.dir                file:/tmp/spark-events
spark.history.fs.logDirectory     file:/tmp/spark-events
启动spark history server时,我可以在本地模式下可靠地运行pyspark代码

spark-submit --master local[*] /usr/local/spark-3.1.1/spark-3.1.1-bin-hadoop3.2/examples/src/main/python/pi.py
但是,当我试图在历史服务器运行时在独立群集上执行时:

spark-submit --master spark://master:7077 /usr/local/spark-3.1.1/spark-3.1.1-bin-hadoop3.2/examples/src/main/python/pi.py
历史服务器进程不存在任何消息,spark submit命令被“终止”:

在这样一个事件之后,集群执行将不起作用。但是,再次停止和启动主机,而不启动任何历史服务器,将允许再次执行群集

我遗漏了什么-为什么历史服务器和spark作业分别悄无声息地崩溃,我在哪里可以找到有关崩溃的信息


我需要历史服务器,因为它是目前使用PyCharm的唯一集成监控选项。

如果分配给spark master的系统资源不足,则可以观察到上述问题

21/04/18 16:38:10 INFO TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0) (172.28.0.4, executor 2, partition 0, PROCESS_LOCAL, 4465 bytes) taskResourceAssignments Map()
21/04/18 16:38:10 INFO TaskSetManager: Starting task 1.0 in stage 0.0 (TID 1) (172.28.0.4, executor 2, partition 1, PROCESS_LOCAL, 4465 bytes) taskResourceAssignments Map()
21/04/18 16:38:10 INFO BlockManagerInfo: Added broadcast_0_piece0 in memory on 172.28.0.4:39975 (size: 7.8 KiB, free: 366.3 MiB)
Killed