Hive 配置单元和配置单元llap之间的结果集不一致
我们正在HDI4.0上使用Hive3.1.x集群,其中一个是LLAP,另一个只是Hive3.1.x集群 我们在两个集群上创建了一个托管表,行数为Hive 配置单元和配置单元llap之间的结果集不一致,hive,azure-hdinsight,qubole,spark-hive,Hive,Azure Hdinsight,Qubole,Spark Hive,我们正在HDI4.0上使用Hive3.1.x集群,其中一个是LLAP,另一个只是Hive3.1.x集群 我们在两个集群上创建了一个托管表,行数为272409 在两个群集上合并之前 根据增量,我们将执行合并操作(更新17行)。 在配置单元llap群集上合并后(压缩前) 在配置单元llap群集上合并后(压缩后) 仅在配置单元群集上合并后(不压缩增量) 这就是观察到的不一致性 但是,在压缩配置单元llap上的表后,结果集不一致不可见,两个集群返回相同的结果 我们认为这可能是由于缓存或llap问题,因此
272409
在两个群集上合并之前
根据增量,我们将执行合并操作(更新17行)。
在配置单元llap群集上合并后(压缩前)
在配置单元llap群集上合并后(压缩后)
仅在配置单元群集上合并后(不压缩增量)
这就是观察到的不一致性
但是,在压缩配置单元llap上的表后,结果集不一致不可见,两个集群返回相同的结果
我们认为这可能是由于缓存或llap问题,因此我们重新启动了hive-server2进程,该进程将清除缓存。问题仍然存在。
我们还在一个配置单元集群上创建了一个具有相同模式的虚拟表,并将该表的位置指向llap one的位置,而llap one的位置反过来会产生预期的结果。
我们甚至使用**Qubole spark acid reader**(直接配置单元管理的表读取器)查询spark,这也产生了预期的结果
这很奇怪,有人能帮忙吗
Qubole还不支持蜂巢LLAP。(然而,我们(在Qubole)正在评估未来是否支持此功能)我们在HDInsight Hive llap集群中也面临类似问题。将
hive.llap.io.enabled
设置为false
解决了问题这似乎是一个llap io问题,一旦禁用,结果集是一致的。
是的,hive llap中使用的电梯io模型似乎存在问题,ORC读取工作正常,但在读取编码数据和合并过程中,问题就出现了。但是,如果在合并完成后立即处理压缩,则问题也会得到缓解。该问题与在映射器上完成的映射端聚合有关。如果我们设置hive.map.aggr=false
,那么我们就不需要禁用llap IO
。在大多数情况下,禁用llap IO
与禁用hive.map.aggr
相反。
+---------------------+------------+---------------------+------------------------+------------------------+
| order_created_date | col_count | col_distinct_count | min_lmd | max_lmd |
+---------------------+------------+---------------------+------------------------+------------------------+
| 20200615 | 272409 | 272409 | 2020-06-15 00:00:12.0 | 2020-07-26 23:42:17.0 |
+---------------------+------------+---------------------+------------------------+------------------------+
+---------------------+------------+---------------------+------------------------+------------------------+
| order_created_date | col_count | col_distinct_count | min_lmd | max_lmd |
+---------------------+------------+---------------------+------------------------+------------------------+
| 20200615 | 272409 | 272392 | 2020-06-15 00:00:12.0 | 2020-07-27 22:52:34.0 |
+---------------------+------------+---------------------+------------------------+------------------------+
+---------------------+------------+---------------------+------------------------+------------------------+
| order_created_date | col_count | col_distinct_count | min_lmd | max_lmd |
+---------------------+------------+---------------------+------------------------+------------------------+
| 20200615 | 272409 | 272409 | 2020-06-15 00:00:12.0 | 2020-07-27 22:52:34.0 |
+---------------------+------------+---------------------+------------------------+------------------------+
+---------------------+------------+---------------------+------------------------+------------------------+
| order_created_date | col_count | col_distinct_count | min_lmd | max_lmd |
+---------------------+------------+---------------------+------------------------+------------------------+
| 20200615 | 272409 | 272409 | 2020-06-15 00:00:12.0 | 2020-07-27 22:52:34.0 |
+---------------------+------------+---------------------+------------------------+------------------------+