Hadoop 配置单元连接查询非常慢

Hadoop 配置单元连接查询非常慢,hadoop,hive,hbase,bigdata,Hadoop,Hive,Hbase,Bigdata,我试着用6个减速机运行下面的查询,但我总是看到只有一个减速机启动。不确定为什么忽略tasks参数。请帮助。(我使用较旧版本的配置单元,因此不支持not in查询) 设置mapred.reduce.tasks=6 从test1左侧外部联接test2中选择concat(test1.col_0,test1.col_1),其中concat(test1.col_0,test1.col_1)=concat(test2.col_0,test2.col_1)和concat(test2.col_0,test2.c

我试着用6个减速机运行下面的查询,但我总是看到只有一个减速机启动。不确定为什么忽略tasks参数。请帮助。(我使用较旧版本的配置单元,因此不支持not in查询)

设置mapred.reduce.tasks=6


从test1左侧外部联接test2中选择concat(test1.col_0,test1.col_1),其中concat(test1.col_0,test1.col_1)=concat(test2.col_0,test2.col_1)和concat(test2.col_0,test2.col_1)为空

将评论作为答案重新发布:


能否尝试将第一个where子句转换为ON条件:

select concat(test1.col_0,test1.col_1) from test1 left outer join test2 ON concat(test1.col_0,test1.col_1) = concat(test2.col_0,test2.col_1) where concat(test2.col_0,test2.col_1) IS NULL;

您是否可以尝试将第一个where子句转换为ON条件:从test1左侧外部连接test2中选择concat(test1.col_0,test1.col_1),其中concat(test2.col_0,test2.col_1)为空;