Hadoop 配置单元/黑斑羚选择并平均所有行键版本

Hadoop 配置单元/黑斑羚选择并平均所有行键版本,hadoop,hive,hbase,impala,Hadoop,Hive,Hbase,Impala,我想知道是否有一种方法可以在HBase中获取特定行键的早期版本,而无需编写MapReduce程序并计算平均值。我很好奇,使用蜂巢、黑斑羚或其他类似的程序是否可能做到这一点,以及您将如何做到这一点 我的桌子看起来像这样: Composite keys Values (md5 + date + id) | (value) 我想对特定日期的所有值和所有版本的ID411子字符串求平均值 提前感谢。Impala使用Hive元存储将其表的逻辑概念映射到物理存储在HDFS或HBa

我想知道是否有一种方法可以在HBase中获取特定行键的早期版本,而无需编写MapReduce程序并计算平均值。我很好奇,使用蜂巢、黑斑羚或其他类似的程序是否可能做到这一点,以及您将如何做到这一点

我的桌子看起来像这样:

  Composite keys          Values 
  (md5 + date + id) | (value)
我想对特定日期的所有值和所有版本的ID411子字符串求平均值


提前感谢。

Impala使用Hive元存储将其表的逻辑概念映射到物理存储在HDFS或HBase中的数据。有关更多详细信息,请参阅

要了解有关如何向配置单元元存储区告知存储在HBase中的数据的更多信息,请参阅

不幸的是,如上链接的配置单元文档中所述:

当前无法访问HBase时间戳属性,并且 查询总是使用最新的时间戳访问数据

在中的旧版本的Hive中添加此功能已经做了一些工作,但遗憾的是,这项工作尚未合并到trunk中


因此,对于您的应用程序,您必须重新设计您的HBase架构以包含一个版本列,将此新列告知配置单元元存储区,并让您的应用程序知道此列。

您应该在服务器上进行计算,而不是在客户端Impala或其他程序中进行计算。Hbase协处理器端点非常适合您的需要。