Google bigquery 在BigQuery中按连续句点对值进行分组_Google Bigquery_Window Functions

Google bigquery 在BigQuery中按连续句点对值进行分组

google-bigquery

Google bigquery 在BigQuery中按连续句点对值进行分组,google-bigquery,window-functions,Google Bigquery,Window Functions,考虑BigQuery表的这种模式： +---------------------------------------+ |ServiceId |UserId |Date | +---------------------------------------+ |s1 |u1 |2016|09|01 00:00:00 | |s1 |u1 |2016|09|02 00:00:00 | |s1 |u2 |20

考虑BigQuery表的这种模式：

+---------------------------------------+
|ServiceId |UserId |Date                |
+---------------------------------------+
|s1        |u1     |2016|09|01 00:00:00 |
|s1        |u1     |2016|09|02 00:00:00 |
|s1        |u2     |2016|09|02 12:00:00 |
|s1        |u2     |2016|09|05 00:00:00 |
|s1        |u1     |2016|09|10 12:00:00 |
|s2        |u1     |2016|09|06 00:00:00 |
|s2        |u2     |2016|09|10 00:00:00 |
|s2        |u2     |2016|09|10 12:00:00 |
|s2        |u2     |2016|09|11 12:00:00 |
+---------------------------------------+

它说明了已识别用户对系统某些资源的使用情况。它就像一个活动日志

我需要一个查询，允许我检索资源随时间的持续使用情况。由于该表不包含开始日期和结束日期，因此结束日期被视为期间中最后记录的日期

如果两个日期之间的距离最多为24小时，则认为它们是连续的

这是给定表的此类查询的预期输出：

+-------------------------------------------------------------+
|ServiceId  |UserId |StartDate           |EndDate             |
+-------------------------------------------------------------+
|s1         |u1     |2016|09|01 00:00:00 |2016|09|02 00:00:00 |
|s1         |u2     |2016|09|02 12:00:00 |2016|09|02 12:00:00 |
|s1         |u2     |2016|09|05 00:00:00 |2016|09|05 00:00:00 |
|s1         |u1     |2016|09|10 12:00:00 |2016|09|10 12:00:00 |
|s2         |u1     |2016|09|06 00:00:00 |2016|09|06 00:00:00 |
|s2         |u2     |2016|09|10 00:00:00 |2016|09|11 12:00:00 |
+-------------------------------------------------------------+

换句话说：我需要确定用户持续使用服务的时间段

BigQuery上的窗口函数文档，没有这种用例的清晰示例，事实上，他们根本没有带日期的示例

如何使用BigQuery实现这一点

谢谢。

嗯。我想它会像这样：

select serviceid, userid, min(date), max(date)
from (select t.*,
             sum(case when dateadd(prev_date, 1, "hour") < date then 1 else 0 end) over (partition by serviceid, userid order by date) as grp
      from (select t.*,
                   lag(date) over (partition by serviceid, userid order by date) as prev_date
            from t
           ) t
      ) t
group by serviceid, userid, grp;

这样做的目的是识别大于1小时的休息时间，并在出现这种情况时将标志指定为1。然后它对标志进行累加和，并将其用于聚合。

我尝试过它，但它做了一些调整：prev_date应该包含一个USEC_TO_TIMESTAMP函数，因为有一个带有lag函数和TIMESTAMP的bug，更多信息，比较中的数字应该先切换为1，然后再切换为0。如果有帮助的话，标准SQL没有这个问题。