Hive 计算和控制配置单元查询使用的映射程序数

Hive 计算和控制配置单元查询使用的映射程序数,hive,mapper,Hive,Mapper,我有一个配置单元表t1,它有104个文件。在104个文件中,1个文件的大小为61 MB,其余103个文件的大小小于1 MB。当我执行查询时 select count(*) from t1 29个映射器与1个减速器一起执行。我试图找出为什么有29个制图员,以及如何减少制图员的数量 mapreduce.input.fileinputformat.split.maxsize=256MB mapreduce.input.fileinputformat.split.maxsize=1kb 谢谢尝试使用

我有一个配置单元表t1,它有104个文件。在104个文件中,1个文件的大小为61 MB,其余103个文件的大小小于1 MB。当我执行查询时

select count(*) from t1
29个映射器与1个减速器一起执行。我试图找出为什么有29个制图员,以及如何减少制图员的数量

mapreduce.input.fileinputformat.split.maxsize=256MB
mapreduce.input.fileinputformat.split.maxsize=1kb

谢谢

尝试使用以下选项设置映射器

设置mapred.map.tasks=20

还要检查数据块的总数

hdfs dfs-du-s-h/apps/hive/warehouse//


每个块将独立处理。根据您正在设置的映射器编号,每个映射器可以处理多个块。

尝试使用以下选项设置映射器

设置mapred.map.tasks=20

还要检查数据块的总数

hdfs dfs-du-s-h/apps/hive/warehouse//

每个块将独立处理。可以根据正在设置的贴图器编号,对每个贴图器处理多个块