Hive 使用配置单元构建和聚合时间序列

Hive 使用配置单元构建和聚合时间序列,hive,Hive,我是Hive的新手,我有一个表,其中模式是: Name, Count, Timestamp 我想知道是否有可能编写一个查询来触发EMR作业,并在给定间隔和开始/结束纪元的情况下提取/聚合每个名称的计数列表 例如 表格内容: NameA, 1, 10000 NameA, 1, 2 NameA, 1, 1 NameB, 1, 500 NameB, 1, 1 参数: Interval: 1000ms Start: 0 End: 10000 输出: NameA, [2,0,0,0,0,0,0,0,

我是Hive的新手,我有一个表,其中模式是:

Name, Count, Timestamp
我想知道是否有可能编写一个查询来触发EMR作业,并在给定间隔和开始/结束纪元的情况下提取/聚合每个名称的计数列表

例如

表格内容:

NameA, 1, 10000
NameA, 1, 2
NameA, 1, 1
NameB, 1, 500
NameB, 1, 1
参数:

Interval: 1000ms
Start: 0
End: 10000
输出:

NameA, [2,0,0,0,0,0,0,0,0,1]
NameB, [2,0,0,0,0,0,0,0,0,0]
要得到完全像那样的格式可能有点棘手,但大致上是

SELECT
   name,
   round((timestamp - ${hiveconf:start})/${hiveconf:interval}) as interval_group,
   count(*) as interval_count
FROM source_table
WHERE timestamp >= ${hiveconf:start} and timestamp <= ${hiveconf:end}
GROUP BY name, round((timestamp - ${hiveconf:start})/${hiveconf:interval})
ORDER BY name, interval_group
选择
名称
将((时间戳-${hiveconf:start})/${hiveconf:interval})作为interval\u组进行取整,
计数(*)作为间隔计数
从源表
其中timestamp>=${hiveconf:start}和timestamp