Hadoop Hive over HBase vs Hive over HDFS

Hadoop Hive over HBase vs Hive over HDFS,hadoop,mapreduce,hbase,hive,Hadoop,Mapreduce,Hbase,Hive,我的数据不需要实时加载,因此我不必使用HBASE,但我想知道在MR Jobs中使用HBASE是否有任何性能优势,连接是否应该因为索引数据而更快 有人有任何基准吗?一般来说,hive/hdfs将比HBase快得多。HBase位于HDFS之上,因此它添加了另一层。如果您正在查找个人记录,HBase会更快,但您不会为此使用MR作业。一般来说,hive/hdfs会比HBase快得多。HBase位于HDFS之上,因此它添加了另一层。如果您正在查找单个记录,HBase会更快,但您不会使用MR作业。尊敬的是:

我的数据不需要实时加载,因此我不必使用HBASE,但我想知道在MR Jobs中使用HBASE是否有任何性能优势,连接是否应该因为索引数据而更快


有人有任何基准吗?

一般来说,hive/hdfs将比HBase快得多。HBase位于HDFS之上,因此它添加了另一层。如果您正在查找个人记录,HBase会更快,但您不会为此使用MR作业。

一般来说,hive/hdfs会比HBase快得多。HBase位于HDFS之上,因此它添加了另一层。如果您正在查找单个记录,HBase会更快,但您不会使用MR作业。尊敬的是:)我想告诉您,如果您的数据不真实,并且您也在考虑mapreduce作业,那么只需通过hdfs进行配置,因为网络日志可以由Hadoop mapreduce程序处理并存储在hdfs中。同时,配置单元支持快速读取HDFS位置中的数据、基本SQL、联接,并将批处理数据加载到配置单元数据库。
As蜂巢也为我们提供了
批量处理/实时(如果可能)
以及类似SQL的接口
内置优化映射减少了大数据的分区,这与hdfs更兼容,有助于减少HBase层,否则如果您在此处添加HBase,这将是您的冗余功能:)

尊敬的:)我想告诉您,如果您的数据不真实,您也考虑mapreduce作业时,只需在hdfs上进行配置,因为网络日志可以由Hadoop mapreduce程序处理并存储在hdfs中。同时,配置单元支持快速读取HDFS位置中的数据、基本SQL、联接,并将批处理数据加载到配置单元数据库。
As蜂巢也为我们提供了

大容量处理/实时(如果可能)以及类似SQL的接口
内置优化映射减少了对大数据的分区,这与hdfs更兼容,有助于减少HBase层,否则,如果您在此处添加HBase,这将是您的冗余功能:)

HBase与Hive的性能:

基于HBase、Hive和Hive-on-HBase的结果:两种方法的性能似乎是可比的


HBase与Hive的性能对比:

基于HBase、Hive和Hive-on-HBase的结果:两种方法的性能似乎是可比的