Performance 是否有一种方法可以识别或检测配置单元表中的数据倾斜?

Performance 是否有一种方法可以识别或检测配置单元表中的数据倾斜?,performance,hadoop,hive,hiveql,Performance,Hadoop,Hive,Hiveql,我们有许多蜂巢查询需要花费很多时间。我们正在使用tez和其他良好实践,如CBO、使用orc文件等 是否有一种方法可以像某些命令一样检查/分析数据倾斜?解释计划有帮助吗?如果有,我应该查找哪个参数?解释计划对此没有帮助,您应该检查数据。如果它是一个连接,则从连接中涉及的所有表中选择前100个连接键值,如果它是分析函数,则对“按键分区”执行相同的操作,您将看到它是否是一个倾斜 例如: select key, count(*) cnt from table group by key hav

我们有许多蜂巢查询需要花费很多时间。我们正在使用tez和其他良好实践,如CBO、使用orc文件等


是否有一种方法可以像某些命令一样检查/分析数据倾斜?解释计划有帮助吗?如果有,我应该查找哪个参数?

解释计划对此没有帮助,您应该检查数据。如果它是一个连接,则从连接中涉及的所有表中选择前100个连接键值,如果它是分析函数,则对“按键分区”执行相同的操作,您将看到它是否是一个倾斜

例如:

select key, count(*) cnt
   from table
  group by key
 having count(*)> 1000 --check also >1 for tables where it should not be duplication (like dimentions)
  order by cnt desc limit 100;
可以是复杂的联接键(联接条件中使用的所有列)


也看看这个答案:

解释计划在这方面没有帮助,你应该检查数据。如果它是一个连接,则从连接中涉及的所有表中选择前100个连接键值,如果它是分析函数,则对“按键分区”执行相同的操作,您将看到它是否是一个倾斜

例如:

select key, count(*) cnt
   from table
  group by key
 having count(*)> 1000 --check also >1 for tables where it should not be duplication (like dimentions)
  order by cnt desc limit 100;
可以是复杂的联接键(联接条件中使用的所有列)


也可以看看这个答案:

谢谢你的指点,我一定会检查一下然后回来。这真的很有帮助。谢谢你的指点,我一定会检查并回来的。这真的很有帮助。