Hive 配置单元和配置单元llap之间的结果集不一致

Hive 配置单元和配置单元llap之间的结果集不一致,hive,azure-hdinsight,qubole,spark-hive,Hive,Azure Hdinsight,Qubole,Spark Hive,我们正在HDI4.0上使用Hive3.1.x集群,其中一个是LLAP,另一个只是Hive3.1.x集群 我们在两个集群上创建了一个托管表,行数为272409 在两个群集上合并之前 根据增量,我们将执行合并操作(更新17行)。 在配置单元llap群集上合并后(压缩前) 在配置单元llap群集上合并后(压缩后) 仅在配置单元群集上合并后(不压缩增量) 这就是观察到的不一致性 但是,在压缩配置单元llap上的表后,结果集不一致不可见,两个集群返回相同的结果 我们认为这可能是由于缓存或llap问题,因此

我们正在HDI4.0上使用Hive3.1.x集群,其中一个是LLAP,另一个只是Hive3.1.x集群

我们在两个集群上创建了一个托管表,行数为
272409

在两个群集上合并之前

根据增量,我们将执行合并操作(更新17行)。

在配置单元llap群集上合并后(压缩前)

在配置单元llap群集上合并后(压缩后)

仅在配置单元群集上合并后(不压缩增量)

这就是观察到的不一致性

但是,在压缩配置单元llap上的表后,结果集不一致不可见,两个集群返回相同的结果

我们认为这可能是由于缓存或llap问题,因此我们重新启动了hive-server2进程,该进程将清除缓存。问题仍然存在。

我们还在一个配置单元集群上创建了一个具有相同模式的虚拟表,并将该表的位置指向llap one的位置,而llap one的位置反过来会产生预期的结果。

我们甚至使用**Qubole spark acid reader**(直接配置单元管理的表读取器)查询spark,这也产生了预期的结果

这很奇怪,有人能帮忙吗


Qubole还不支持蜂巢LLAP。(然而,我们(在Qubole)正在评估未来是否支持此功能)

我们在HDInsight Hive llap集群中也面临类似问题。将
hive.llap.io.enabled
设置为
false
解决了问题

这似乎是一个llap io问题,一旦禁用,结果集是一致的。
是的,hive llap中使用的电梯io模型似乎存在问题,ORC读取工作正常,但在读取编码数据和合并过程中,问题就出现了。但是,如果在合并完成后立即处理压缩,则问题也会得到缓解。该问题与在映射器上完成的映射端聚合有关。如果我们
设置hive.map.aggr=false
,那么我们就不需要禁用
llap IO
。在大多数情况下,禁用
llap IO
与禁用
hive.map.aggr
相反。
+---------------------+------------+---------------------+------------------------+------------------------+
| order_created_date  | col_count  | col_distinct_count  |        min_lmd         |        max_lmd         |
+---------------------+------------+---------------------+------------------------+------------------------+
| 20200615            | 272409     | 272409              | 2020-06-15 00:00:12.0  | 2020-07-26 23:42:17.0  |
+---------------------+------------+---------------------+------------------------+------------------------+
+---------------------+------------+---------------------+------------------------+------------------------+
| order_created_date  | col_count  | col_distinct_count  |        min_lmd         |        max_lmd         |
+---------------------+------------+---------------------+------------------------+------------------------+
| 20200615            | 272409     | 272392              | 2020-06-15 00:00:12.0  | 2020-07-27 22:52:34.0  |
+---------------------+------------+---------------------+------------------------+------------------------+
+---------------------+------------+---------------------+------------------------+------------------------+
| order_created_date  | col_count  | col_distinct_count  |        min_lmd         |        max_lmd         |
+---------------------+------------+---------------------+------------------------+------------------------+
| 20200615            | 272409     | 272409              | 2020-06-15 00:00:12.0  | 2020-07-27 22:52:34.0  |
+---------------------+------------+---------------------+------------------------+------------------------+
+---------------------+------------+---------------------+------------------------+------------------------+
| order_created_date  | col_count  | col_distinct_count  |        min_lmd         |        max_lmd         |
+---------------------+------------+---------------------+------------------------+------------------------+
| 20200615            | 272409     | 272409              | 2020-06-15 00:00:12.0  | 2020-07-27 22:52:34.0  |
+---------------------+------------+---------------------+------------------------+------------------------+