Hadoop 在同一查询中包含多维数据集和分组依据的配置单元分组依据
假设我正在观察超速事件,其中表模式如下所示:Hadoop 在同一查询中包含多维数据集和分组依据的配置单元分组依据,hadoop,hive,hql,hiveql,Hadoop,Hive,Hql,Hiveql,假设我正在观察超速事件,其中表模式如下所示: create table speeding_data( date_of_occurrence date, year int, make string, model string, speed int ); 我希望观察这些特征的不同组合下的平均速度,但希望始终按照出现日期对其进行分组,例如 select date_of_occurrence, year, make, model, avg(speed) fro
create table speeding_data(
date_of_occurrence date,
year int,
make string,
model string,
speed int
);
我希望观察这些特征的不同组合下的平均速度,但希望始终按照出现日期对其进行分组,例如
select date_of_occurrence, year, make, model, avg(speed)
from speeding_data
group by date_of_occurrence
group by year, make, model with cube;
只是想知道是否有一种方法可以在蜂箱中产生这种结果 所以我要回答我自己的问题,想法是使用
分组集
子句,在这里我可以继续执行以下操作:
select a, b, c, d, avg(e)
from tbl
group by a, b, c, d
grouping set ( (a), (a,b), (a,c), (a,d)...);