Apache spark 限制Spark应用程序获取纱线群中的所有资源

Apache spark 限制Spark应用程序获取纱线群中的所有资源,apache-spark,yarn,emr,Apache Spark,Yarn,Emr,我们(一个工程团队)正在使用纱线和火花运行EMR集群。通常发生的情况是,当一个用户提交一个内存密集型作业时,它会获取所有可用内存,然后所有后续用户提交的作业都必须等待该内存被清除(我知道autoscaling会在一定程度上解决这个问题,我们正在研究这个问题,但我们希望避免单个用户占用所有内存,即使集群是autoscaled到其全部极限) 是否有一种方法可以配置纱线,使任何应用程序(Spark或其他)占用的可用内存不会超过,比如说75% 谢谢根据,您可以使用以下参数管理分配给执行器的内存量:spa

我们(一个工程团队)正在使用
纱线
火花
运行
EMR
集群。通常发生的情况是,当一个用户提交一个内存密集型作业时,它会获取所有可用内存,然后所有后续用户提交的作业都必须等待该内存被清除(我知道
autoscaling
会在一定程度上解决这个问题,我们正在研究这个问题,但我们希望避免单个用户占用所有内存,即使集群是
autoscale
d到其全部极限)

是否有一种方法可以配置纱线,使任何应用程序(
Spark
或其他)占用的可用内存不会超过,比如说75%

谢谢

根据,您可以使用以下参数管理分配给执行器的内存量:spark.executor.memory