Hadoop/Hive升级性能
我们正在测试Hive和Hadoop以挖掘我们的数据,不久前我安装了Hadoop 1.2.1和Hive 0.11(是稳定的版本) 测试服务器是4个内核和16GB的ram 现在我想知道切换到Hive0.12和Hadoop2.2是否值得升级服务器以提高查询性能 查询如下所示:Hadoop/Hive升级性能,hadoop,hive,upgrade,Hadoop,Hive,Upgrade,我们正在测试Hive和Hadoop以挖掘我们的数据,不久前我安装了Hadoop 1.2.1和Hive 0.11(是稳定的版本) 测试服务器是4个内核和16GB的ram 现在我想知道切换到Hive0.12和Hadoop2.2是否值得升级服务器以提高查询性能 查询如下所示: SELECT i, day(time), count(distint value), count(*) from table lateral view explode(column) tab AS i group by i, d
SELECT i, day(time), count(distint value), count(*) from table lateral view explode(column) tab AS i group by i, day(time);
因此,我的查询中使用了一些东西,但在升级时,我找不到关于性能提升的适当信息
对这件事有任何见解都很好:)
干杯因为您的查询不包含“where”谓词,所以您不能享受谓词下推到0.12中引入的存储层,即使您的数据是ORC格式的
因此,尽管在0.12改进中有更快的计划生成和优化,但我相信,有根据的猜测应该是性能改进不会太大。对于这种查询,升级到Hive 12的唯一好处是如果有大量分区。如果您感兴趣,Apache JIRA HIVE-4051将提供更多信息。这是一个用于执行基准测试的“测试”查询:)将来将测试更多查询,因此我想应该升级:)