使用HiveQL,如何提取具有最高整数的行?
我有一个包含数百万行数据的表,如下所示:使用HiveQL,如何提取具有最高整数的行?,hiveql,Hiveql,我有一个包含数百万行数据的表,如下所示: +---------------+--------------+-------------------+ | page | search_term | interactions | +---------------+--------------+-------------------+ | /mom | pizza | 15 | | /dad |
+---------------+--------------+-------------------+
| page | search_term | interactions |
+---------------+--------------+-------------------+
| /mom | pizza | 15 |
| /dad | pizza | 8 |
| /uncle | pizza | 2 |
| /brother | pizza | 7 |
| /mom | pasta | 12 |
| /dad | pasta | 23 |
+---------------+--------------+-------------------+
我的目标是运行一个HiveQL查询,该查询将为每个唯一的页面/术语组合返回最大的“交互”数。例如:
+---------------+--------------+-------------------+
| page | search_term | interactions |
+---------------+--------------+-------------------+
| /dad | pasta | 23 |
| /mom | pizza | 15 |
+---------------+--------------+-------------------+
考虑到每个独特的页面都有数十万个搜索词,但我只想拉一个交互最多的搜索词,我该如何写这篇文章
我尝试过使用max(交互)和max(struct(交互,搜索词)).col1,但没有成功。我的输出始终为我提供每个页面的所有搜索词,无论有多少交互
谢谢 使用row_number()分析函数:
选择页面、搜索词、交互
从…起
(选择页面、搜索词、交互、,
(按页面顺序按交互说明划分)rn上的行数
)
其中rn=1代码>