Hive 配置单元分区和带扣表的映射和减少任务有多少

Hive 配置单元分区和带扣表的映射和减少任务有多少,hive,mapreduce,Hive,Mapreduce,我在配置单元中有一个分区表(在col1上),它也被绑定(在col2上有16个bucket),现在如果我想运行一个select查询,那么会生成多少个mapper和reducer任务 对于输入表的每个输入拆分,将调度一个映射器,其中输入拆分的默认大小将为块大小 您可以通过修改mapreduce.input.fileinputformat.split.maxsize和mapreduce.input.fileinputformat.split.minsize属性来更改映射器的数量 说到配置单元中的还原器

我在配置单元中有一个分区表(在col1上),它也被绑定(在col2上有16个bucket),现在如果我想运行一个select查询,那么会生成多少个mapper和reducer任务

对于输入表的每个输入拆分,将调度一个映射器,其中输入拆分的默认大小将为块大小

您可以通过修改mapreduce.input.fileinputformat.split.maxsize和mapreduce.input.fileinputformat.split.minsize属性来更改映射器的数量

说到配置单元中的还原器数量,默认情况下,它是使用Hive.exec.reducers.bytes.per.reducer属性计算的,其默认值为1GB

您可以通过修改上述属性来配置减速器的数量。仍然可以使用mapred.reduce.tasks属性为作业设置恒定的还原器数

您可以在以下链接中找到更多详细信息


WHERE子句范围内的分区/存储桶中有多少HDFS数据文件?这些文件中有多少HDFS块?或者,当使用复杂的柱状格式(如ORC/Parquet)时,文件中有多少条条纹?这些是映射器的并行单位。至于减速机,那要看情况了!!