Hive 我可以将集群A中的配置单元表与集群B中的Hbase表连接起来吗

Hive 我可以将集群A中的配置单元表与集群B中的Hbase表连接起来吗,hive,hbase,Hive,Hbase,我的客户有一个计算场景,一些数据存储在集群a的Hive中,另一些数据存储在集群B的Hbase中,然后他们想对这两种表执行一些连接操作 有没有办法让我在蜂箱里这样做: select hive_table.col1, hbase_table.col2 from hive_table inner join hbase_table on hive_table.id = hbase_table.id 配置单元表和hbase表存在于不同的集群中。是的,可以将配置单元表(表1假设在HDFS中)与hb

我的客户有一个计算场景,一些数据存储在集群a的Hive中,另一些数据存储在集群B的Hbase中,然后他们想对这两种表执行一些连接操作

有没有办法让我在蜂箱里这样做:

select hive_table.col1, hbase_table.col2 from hive_table inner join hbase_table on hive_table.id = hbase_table.id    

配置单元表和hbase表存在于不同的集群中。

是的,可以将配置单元表(表1假设在HDFS中)hbase表(表2 hbase表)连接起来。。但不建议这样做,因为当您尝试加入时,HBase在进行全表扫描时效率不高。最好的方法是将Hbase表转换为拼花地板或AVRO。现在,来自Hive的表1和来自Hbase的表2都驻留在HDFS中,这使得它更高效

简而言之,我们可以连接Hive metastore存储的任何表。配置单元表是否构建在HDFS、Hbase上并不重要。只要我们在配置单元元存储中有模式,我们就可以加入它们

假设配置单元元存储包含两个表的模式


在(hive_table.id=hbase_table.id)上从配置单元表内部联接hbase_表中选择配置单元表.col1、hbase_table.col2

用户是否能够查询Hbase表?如果不是的话,我建议试着让那部分工作。是的,他们可以。他们只是想做从hive到HBash的连接操作。当他们尝试时会发生什么?