Apache spark 火花上的蜂巢如何确定减速器数量？_Apache Spark_Hive_Mapreduce

Apache spark 火花上的蜂巢如何确定减速器数量？

apache-spark hive mapreduce

Apache spark 火花上的蜂巢如何确定减速器数量？,apache-spark,hive,mapreduce,Apache Spark,Hive,Mapreduce,我根据Cloudera文档和配置启用Spark上的Hive。我现在发现减速机编号的行为出人意料。我希望有人能提供详细的文件或解释据我所知，MR上的Hive根据数据量和Hive.exec.reducers.bytes.per.reducer（即每个reducer进程的字节数）计算reducer数，因此可以自动调整作业并行性。但Spark上的蜂巢似乎对这个参数的处理方式有所不同。尽管将其设置为非常低的数字（您的意思是您正在spark上使用HiveContext？可以附加代码吗sample@Refi

我根据Cloudera文档和配置启用Spark上的Hive。我现在发现减速机编号的行为出人意料。我希望有人能提供详细的文件或解释

据我所知，MR上的Hive根据数据量和

Hive.exec.reducers.bytes.per.reducer

（即每个reducer进程的字节数）计算reducer数，因此可以自动调整作业并行性。但Spark上的蜂巢似乎对这个参数的处理方式有所不同。尽管将其设置为非常低的数字（您的意思是您正在spark上使用HiveContext？可以附加代码吗sample@RefiPeretz我相信这个问题是关于Spark上的蜂巢，@iamabug，我也面临着这个问题，请问您是否能够找到解决这个问题的方法。我正在使用CDH 5.16.2，并且面临着同样的问题。在这方面的任何帮助都非常有帮助！谢谢提前！！！@Naga很抱歉我没有真正解决问题，我手动设置了不同作业的参数作为解决方法。但是您可以尝试找出spark spill不起作用的原因。我一有空就会处理这个问题。@iamabug，谢谢您的快速回复，是的，因为现在我也在使用

mapreduce.job.reduces

来设置数量手动还原器。为什么它只为一些查询创建1个还原器，而其他查询创建所需数量的还原器，这确实令人沮丧。

Job aborted due to stage failure: Task 0 in stage 7.0 failed 4 times, most recent failure: Lost task 0.3 in stage 7.0 (TID 146, fuxi-luoge-105, executor 34): ExecutorLostFailure (executor 34 exited caused by one of the running tasks) Reason: Container killed by YARN for exceeding memory limits. 6.2 GB of 6.0 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead.