POC:Cloudera Impala+HDFS+HBase位于单独的群集上

POC:Cloudera Impala+HDFS+HBase位于单独的群集上,hbase,hdfs,cloudera,impala,Hbase,Hdfs,Cloudera,Impala,我正在处理一个大数据系统架构。我知道Impala可以对存储在HDFS/HBase集群中的数据执行查询 但是,如果我有一个HDFS集群加上另一个集群来保存HBase数据,该怎么办呢。Impala是否能够执行合并两个集群数据的查询 我认为您还需要在Hbase集群上安装Impala。在两个集群之间连接数据可能不是一个好主意,因为您将遇到延迟问题 第一个HBase将其数据存储在HDFS中。因此,我确信您的HBase集群上有HDFS 当impala向HDFS读取/写入数据时,它直接访问操作系统级别的块。这

我正在处理一个大数据系统架构。我知道Impala可以对存储在HDFS/HBase集群中的数据执行查询


但是,如果我有一个HDFS集群加上另一个集群来保存HBase数据,该怎么办呢。Impala是否能够执行合并两个集群数据的查询

我认为您还需要在Hbase集群上安装Impala。在两个集群之间连接数据可能不是一个好主意,因为您将遇到延迟问题

第一个HBase将其数据存储在HDFS中。因此,我确信您的HBase集群上有HDFS

当impala向HDFS读取/写入数据时,它直接访问操作系统级别的块。这就是为什么黑斑羚在这方面速度如此之快。当impala读取HBase数据时,它将成为一个使用其api的HBase客户端,而不是像其他情况那样直接从磁盘读取HBase数据


因此,HBase不必安装在与Impala相同的集群上。但是,群集需要能够相互访问。

另一个群集的意思是有一个单独的带有HBase和它自己的HDFS的群集?不,只有一个HBase群集。