Apache spark 火花上的蜂巢如何确定减速器数量?

Apache spark 火花上的蜂巢如何确定减速器数量?,apache-spark,hive,mapreduce,Apache Spark,Hive,Mapreduce,我根据Cloudera文档和配置启用Spark上的Hive。我现在发现减速机编号的行为出人意料。我希望有人能提供详细的文件或解释 据我所知,MR上的Hive根据数据量和Hive.exec.reducers.bytes.per.reducer(即每个reducer进程的字节数)计算reducer数,因此可以自动调整作业并行性。但Spark上的蜂巢似乎对这个参数的处理方式有所不同。尽管将其设置为非常低的数字(您的意思是您正在spark上使用HiveContext?可以附加代码吗sample@Refi

我根据Cloudera文档和配置启用Spark上的Hive。我现在发现减速机编号的行为出人意料。我希望有人能提供详细的文件或解释


据我所知,MR上的Hive根据数据量和
Hive.exec.reducers.bytes.per.reducer
(即每个reducer进程的字节数)计算reducer数,因此可以自动调整作业并行性。但Spark上的蜂巢似乎对这个参数的处理方式有所不同。尽管将其设置为非常低的数字(您的意思是您正在spark上使用HiveContext?可以附加代码吗sample@RefiPeretz我相信这个问题是关于Spark上的蜂巢,@iamabug,我也面临着这个问题,请问您是否能够找到解决这个问题的方法。我正在使用CDH 5.16.2,并且面临着同样的问题。在这方面的任何帮助都非常有帮助!谢谢提前!!!@Naga很抱歉我没有真正解决问题,我手动设置了不同作业的参数作为解决方法。但是您可以尝试找出spark spill不起作用的原因。我一有空就会处理这个问题。@iamabug,谢谢您的快速回复,是的,因为现在我也在使用
mapreduce.job.reduces
来设置数量手动还原器。为什么它只为一些查询创建1个还原器,而其他查询创建所需数量的还原器,这确实令人沮丧。
Job aborted due to stage failure: Task 0 in stage 7.0 failed 4 times, most recent failure: Lost task 0.3 in stage 7.0 (TID 146, fuxi-luoge-105, executor 34): ExecutorLostFailure (executor 34 exited caused by one of the running tasks) Reason: Container killed by YARN for exceeding memory limits. 6.2 GB of 6.0 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead.