Hive 可以在不同的hdfs群集上配置单元处理表吗?

Hive 可以在不同的hdfs群集上配置单元处理表吗?,hive,Hive,一个配置单元实例可以跨hdfs集群存储不同的表。然后在这些表上执行配置单元ql 我的用例是在一个hdfs集群上有一个配置单元表。我想用HiveQL对其进行一些处理,并将输出写入另一个hdfs集群。我希望仅通过配置单元直接实现这一点,而不需要运行一些转储/复制/导入过程。那有可能吗?我真的不认为这是可能的,但是,我注意到一个设计页面在: 它在信中说: 请注意,即使在今天,不同的分区/表也可以跨多个dfs,并且配置单元不强制执行任何限制。这些dfs也可以位于不同的数据中心 除此之外,我没有用谷歌搜

一个配置单元实例可以跨hdfs集群存储不同的表。然后在这些表上执行配置单元ql

我的用例是在一个hdfs集群上有一个配置单元表。我想用HiveQL对其进行一些处理,并将输出写入另一个hdfs集群。我希望仅通过配置单元直接实现这一点,而不需要运行一些转储/复制/导入过程。那有可能吗?我真的不认为这是可能的,但是,我注意到一个设计页面在:

它在信中说:

请注意,即使在今天,不同的分区/表也可以跨多个dfs,并且配置单元不强制执行任何限制。这些dfs也可以位于不同的数据中心

除此之外,我没有用谷歌搜索任何相关的东西


有人对此有什么想法吗?谢谢。

处理这个问题有多种方法。您可以使用镜像(使用ApacheFalcon等工具)。在这种情况下,数据存储在两个集群中。如果您想在没有镜像的情况下跨具有不同表的集群进行查询,那么可以使用apachedrill之类的工具来连接来自不同数据源的数据。它目前支持hive、mongo、json、kudu等