Apache spark 为什么即使在spark上下文关闭后仍有剩余的java进程
我用python编写了一个小应用程序,它接受请求并在工作进程中执行pyspark作业。一切正常,但即使在关闭spark上下文之后,启动spark上下文时跨越的java进程仍然存在。我检查了集群,并且在上下文关闭后,资源也被正确释放。此外,工人正在处理后续请求,没有任何问题Apache spark 为什么即使在spark上下文关闭后仍有剩余的java进程,apache-spark,hadoop,pyspark,Apache Spark,Hadoop,Pyspark,我用python编写了一个小应用程序,它接受请求并在工作进程中执行pyspark作业。一切正常,但即使在关闭spark上下文之后,启动spark上下文时跨越的java进程仍然存在。我检查了集群,并且在上下文关闭后,资源也被正确释放。此外,工人正在处理后续请求,没有任何问题 10542 pts/3 Sl+ 0:00 \_ Worker - 1 12960 pts/3 Sl+ 0:22 | \_ /usr/jdk64/jdk1.8.0
10542 pts/3 Sl+ 0:00 \_ Worker - 1
12960 pts/3 Sl+ 0:22 | \_ /usr/jdk64/jdk1.8.0_77//bin/java - hdp.version=3.0.0.0-1634 -cp /usr/hdp/3.0.0.0-1634/spark2//conf/:/usr/hdp/3.0.0.0-1634/spark2/jars/*:/usr
有两个问题
附加信息:作业以“纱线”形式提交,部署模式为“客户端”。PySpark依赖于
py4j
gateway,它在会话之间保持活动状态。我不知道如何强制它明确停止,只是谷歌在这个主题上…阅读“长时间运行的Spark作业”(特别是流媒体)和--principal
/--keytab
命令行选项(或底层Spark属性)关于驱动程序自动更新凭据的内容