Apache spark 限制Spark应用程序获取纱线群中的所有资源
我们(一个工程团队)正在使用Apache spark 限制Spark应用程序获取纱线群中的所有资源,apache-spark,yarn,emr,Apache Spark,Yarn,Emr,我们(一个工程团队)正在使用纱线和火花运行EMR集群。通常发生的情况是,当一个用户提交一个内存密集型作业时,它会获取所有可用内存,然后所有后续用户提交的作业都必须等待该内存被清除(我知道autoscaling会在一定程度上解决这个问题,我们正在研究这个问题,但我们希望避免单个用户占用所有内存,即使集群是autoscaled到其全部极限) 是否有一种方法可以配置纱线,使任何应用程序(Spark或其他)占用的可用内存不会超过,比如说75% 谢谢根据,您可以使用以下参数管理分配给执行器的内存量:spa
纱线和火花运行EMR
集群。通常发生的情况是,当一个用户提交一个内存密集型作业时,它会获取所有可用内存,然后所有后续用户提交的作业都必须等待该内存被清除(我知道autoscaling
会在一定程度上解决这个问题,我们正在研究这个问题,但我们希望避免单个用户占用所有内存,即使集群是autoscale
d到其全部极限)
是否有一种方法可以配置纱线,使任何应用程序(Spark
或其他)占用的可用内存不会超过,比如说75%
谢谢根据,您可以使用以下参数管理分配给执行器的内存量:spark.executor.memory