Hive 使用配置单元SQL查询比较当前记录和下一记录

Hive 使用配置单元SQL查询比较当前记录和下一记录,hive,Hive,我的RFID标签文件有大量数据,数据按日期和时间值分组(每个组有多个标签)。我想知道第一组和第二组数据之间缺少标记。 请帮帮我 示例文件: field names: Tag # Date & Time 1st line -> 00045512|05-01-2013 12:02:03 2nd line -> 00052450|05-01-2013 12:02:03 同一文件以不同的时间继续,但缺少按时间排序的上述2组中的第1行…(以下) 00052450 | 05-

我的RFID标签文件有大量数据,数据按日期和时间值分组(每个组有多个标签)。我想知道第一组和第二组数据之间缺少标记。 请帮帮我

示例文件:

field names: Tag #      Date & Time
1st line -> 00045512|05-01-2013 12:02:03
2nd line -> 00052450|05-01-2013 12:02:03
同一文件以不同的时间继续,但缺少按时间排序的上述2组中的第1行…(以下)

00052450 | 05-01-2013 13:02:03

基本上,我希望在“日期和时间”字段更改时找到丢失的标记

这是SQL中解决的类似问题…(附链接) 使用左外连接:

select s1.tag, case s2.tag when null then 1 else 0 end  as missing_flag 
from 
    set1 s1
    left outer join set2 s2 on (s1.tag=s2.tag)  

显示更多的输入和输出示例会有所帮助。当你说“数据集”时,你是在比较不同的文件或不同的表格,还是在管理这些数据集?第1组(2项)00045512 | 119 | 59 | 55 | 60 | 50 | C | 00 | N/A | 4050 | 05-01-2013 12:02:03 00052450 | 120 | 60 | 43 12400 12401 12401 12401 12401-2014; 12:02缺失第12项00052450 | 120 | 60 | 44 | 60 | 43 | C | 00 | N/A | 4050 | 05-01-2013 12:12:03我想在第二组中找到缺失的项目(00045512)。实际上,在第二组中,我必须将数据与第一组项目进行比较。