Hive 为什么蜂巢在Cloudera比黑斑羚慢得多

Hive 为什么蜂巢在Cloudera比黑斑羚慢得多,hive,cloudera,impala,Hive,Cloudera,Impala,我尝试按如下方式运行SQL: select count(*) from test_table where columna='a' and columnb in ('test1', test2') 对于Cloudera的黑斑羚来说,大约需要2分钟,但对于蜂巢来说,需要20分钟,不确定这是否正常?如果是的话,为什么黑斑羚比Cloudera的蜂巢跑得快?在哪种情况下,蜂巢会比黑斑羚更快 谢谢。Hive适用于更复杂的查询和真正的大数据。Cloudera捆绑的Hive版本永远不会比黑斑羚更快——因为黑斑

我尝试按如下方式运行SQL:

select count(*) from test_table where columna='a' and columnb in ('test1', test2')
对于Cloudera的黑斑羚来说,大约需要2分钟,但对于蜂巢来说,需要20分钟,不确定这是否正常?如果是的话,为什么黑斑羚比Cloudera的蜂巢跑得快?在哪种情况下,蜂巢会比黑斑羚更快


谢谢。

Hive适用于更复杂的查询和真正的大数据。Cloudera捆绑的Hive版本永远不会比黑斑羚更快——因为黑斑羚是由Cloudera赞助的,并且定位为市场优势(通过他们的营销),而Hive扩展是由HortonWorks赞助的(Tez,LLAP…),而且,老式的Hive会生成批量作业,所以从一开始就有20-30秒的开销当您有足够的资源时,IMPLA是为交互查询构建的,预先分配大量的CPU / RAM……并且在C++中开发,以达到性能(在可扩展性的损失)的基础上,IMPLA是一个大规模并行处理引擎(MPP)。在CDH 5.3.x上工作后,我主要从事了Hive on Map Reduce作业。由于涉及磁盘和网络I/O,其Map会减少,因此其复制速度相对较慢