Hadoop 蜂巢和黑斑羚的整合可能吗?

Hadoop 蜂巢和黑斑羚的整合可能吗?,hadoop,hive,hiveql,hadoop2,impala,Hadoop,Hive,Hiveql,Hadoop2,Impala,Hive和Impala是否可以集成 在hive中进行数据处理后,我想将结果数据存储在impala中以便更好地读取,是否可能 如果是,请分享一个例子。蜂巢和黑斑羚都不存储任何数据。数据存储在HDFS位置,hive和impala都用于可视化/转换HDFS中的数据 因此,是的,您可以使用hive处理数据,然后使用impala读取数据,考虑到它们都已正确设置。但是由于需要刷新impala,因此需要运行invalidatemetadata和refresh命令impala使用配置单元元存储读取数据。一旦您在

Hive
Impala
是否可以集成

在hive中进行数据处理后,我想将结果数据存储在impala中以便更好地读取,是否可能


如果是,请分享一个例子。

蜂巢和黑斑羚都不存储任何数据。数据存储在HDFS位置,hive和impala都用于可视化/转换HDFS中的数据


因此,是的,您可以使用hive处理数据,然后使用impala读取数据,考虑到它们都已正确设置。但是由于需要刷新impala,因此需要运行invalidatemetadata和refresh命令

impala使用配置单元元存储读取数据。一旦您在配置单元中创建了一个表,就可以使用Impala读取和查询相同的表。您只需刷新表或触发impala中的无效元数据即可读取数据


希望这有帮助:)

Hive和impala是两个不同的查询引擎。每个查询引擎在其体系结构和性能方面都是独一无二的。我们可以使用hive metastore获取元数据,并使用impala运行查询。常见的用例是从tableau连接黑斑羚/蜂巢。如果我们从表中可视化蜂巢,我们可以不需要任何处理就获得最新的数据。如果我们继续不断地加载数据,元数据也会更新。黑斑羚没有意识到这些变化。因此,我们应该通过连接impalad来运行元数据失效查询,以刷新其状态并与metastore中可用的最新信息同步。这样,当用户使用impala引擎从tableau运行相同的查询时,将获得与配置单元相同的结果

现在没有可用于定期运行此无效查询的配置参数。通过oozie调度器定期执行元数据无效查询以处理此类问题,或者我们可以从服务器本身设置一个cronjob