Hive 为什么蜂巢在Cloudera比黑斑羚慢得多_Hive_Cloudera_Impala

Hive 为什么蜂巢在Cloudera比黑斑羚慢得多

hive

Hive 为什么蜂巢在Cloudera比黑斑羚慢得多,hive,cloudera,impala,Hive,Cloudera,Impala,我尝试按如下方式运行SQL： select count(*) from test_table where columna='a' and columnb in ('test1', test2') 对于Cloudera的黑斑羚来说，大约需要2分钟，但对于蜂巢来说，需要20分钟，不确定这是否正常？如果是的话，为什么黑斑羚比Cloudera的蜂巢跑得快？在哪种情况下，蜂巢会比黑斑羚更快谢谢。Hive适用于更复杂的查询和真正的大数据。Cloudera捆绑的Hive版本永远不会比黑斑羚更快——因为黑斑

我尝试按如下方式运行SQL：

select count(*) from test_table where columna='a' and columnb in ('test1', test2')

对于Cloudera的黑斑羚来说，大约需要2分钟，但对于蜂巢来说，需要20分钟，不确定这是否正常？如果是的话，为什么黑斑羚比Cloudera的蜂巢跑得快？在哪种情况下，蜂巢会比黑斑羚更快

谢谢。

Hive适用于更复杂的查询和真正的大数据。Cloudera捆绑的Hive版本永远不会比黑斑羚更快——因为黑斑羚是由Cloudera赞助的，并且定位为市场优势（通过他们的营销），而Hive扩展是由HortonWorks赞助的（Tez，LLAP…），而且，老式的Hive会生成批量作业，所以从一开始就有20-30秒的开销当您有足够的资源时，IMPLA是为交互查询构建的，预先分配大量的CPU / RAM……并且在C++中开发，以达到性能（在可扩展性的损失）的基础上，IMPLA是一个大规模并行处理引擎（MPP）。在CDH 5.3.x上工作后，我主要从事了Hive on Map Reduce作业。由于涉及磁盘和网络I/O，其Map会减少，因此其复制速度相对较慢