Google bigquery 除了执行时间外,BigQuery返回了完全相同的SELECT查询的不一致(=不同)结果

Google bigquery 除了执行时间外,BigQuery返回了完全相同的SELECT查询的不一致(=不同)结果,google-bigquery,Google Bigquery,查询是从[table.click]中选择COUNT(*),其中时间>=DATE\u ADD('2015-03-2506:00:00',-9,'HOUR')和时间=日期添加('2015-03-25 06:00:00',-9,'HOUR')和时间=日期添加('2015-03-25 06:00:00',-9,'HOUR')和时间=日期添加('2015-03-25 06:00:00',-9,'HOUR')和时间有一个小延迟流插入数据可供查询。是的,我理解这样的延迟。>在报告流媒体插入完成并开始运行查询后

查询是
从[table.click]中选择COUNT(*),其中时间>=DATE\u ADD('2015-03-2506:00:00',-9,'HOUR')和时间

我想取时间在6到7点之间的记录

[07:25:57] $ bq query "SELECT COUNT(*) FROM [table.click] WHERE time >= DATE_ADD('2015-03-25 06:00:00', -9, 'HOUR') AND time < DATE_ADD('2015-03-25 07:00:00', -9, 'HOUR')"
Waiting on bqjob_r5e92dc9eca9622ed_0000014c4de50d59_1 ... (0s) Current status: DONE
+-----+
| f0_ |
+-----+
|   0 |
+-----+`
[07:25:57]$bq query“从[表中选择计数(*),其中时间>=日期添加('2015-03-25 06:00:00',-9,'HOUR')和时间<日期添加('2015-03-25 07:00:00',-9,'HOUR')”
正在等待bqjob_r5e92dc9eca9622ed_uu0000014c4de50d59_1。。。(0s)当前状态:完成
+-----+
|f0_|
+-----+
|   0 |
+-----+`
但是我导入数据的过程已经运行了很长时间,我确认这个过程没有问题(=6到7之间的流式导入运行良好)

10分钟后,我执行了完全相同的查询

[07:35:15]$ bq query "SELECT COUNT(*) FROM [table.click] WHERE time >= DATE_ADD('2015-03-25 06:00:00', -9, 'HOUR') AND time < DATE_ADD('2015-03-25 07:00:00', -9, 'HOUR')"
Waiting on bqjob_r338acff11f068b44_0000014c4ded45c5_1 ... (2s) Current status: DONE    
+------+
| f0_  |
+------+
| 1954 |
+------+`
[07:35:15]$bq query“从[表中选择计数(*),其中时间>=日期添加('2015-03-25 06:00:00',-9,'HOUR')和时间<日期添加('2015-03-25 07:00:00',-9,'HOUR')”
正在等待bqjob_r338acff11f068b44_00000 14C4DED45C5_1。。。(2s)当前状态:完成
+------+
|f0_|
+------+
| 1954 |
+------+`
这次效果很好!在此之后,BigQuery不断返回1954条记录,如下所示

[10:49:59]$ bq query "SELECT COUNT(*) FROM [table.click] WHERE time >= DATE_ADD('2015-03-25 06:00:00', -9, 'HOUR') AND time < DATE_ADD('2015-03-25 07:00:00', -9, 'HOUR')"
Waiting on bqjob_r5693edc7523c1ca2_0000014c4e9f4f52_1 ... (0s) Current status: DONE    
+------+
| f0_  |
+------+
| 1954 |
+------+`
[10:49:59]$bq query“从[表中选择计数(*),其中时间>=日期添加('2015-03-25 06:00:00',-9,'HOUR')和时间<日期添加('2015-03-25 07:00:00',-9,'HOUR')”
正在等待bqjob_r5693edc7523c1ca2_u0000014C4E9F4F52_1。。。(0s)当前状态:完成
+------+
|f0_|
+------+
| 1954 |
+------+`
是一个类似的问题帖子,但是BigQuery团队回答说问题已经解决了,所以我决定发布这个问题帖子

这个问题发生了两次。第一次是
2015-03-24 22:00:00 JST~2015-03-24 23:00:00 JST
,第二次是
2015-03-25 06:00:00 JST~2015-03-25 07:00:00 JST

我附上了一张发生时的
谷歌云状态截图
,显示BigQuery在全球范围内没有系统故障


正如奔腾10所指出的那样,您似乎被流数据延迟的事实所震惊


似乎在流式插入到处传播之前,您的第一个查询命中了您的数据。这是正常的。这似乎不是陈旧数据的问题,更重要的是,正如奔腾所指出的,在流式传输数据之后等待延迟。10分钟似乎有点长,但我看不出真正的问题在哪里。

有一个小延迟,流式传输插入的数据可供查询。您的流媒体插入报告完成并开始运行查询后,已过了多少分钟?谢谢。>有一个小延迟流插入数据可供查询。是的,我理解这样的延迟。>在报告流媒体插入完成并开始运行查询后,已经过了多少分钟?至少10分钟过去了,最多90分钟过去了。我确认所有的流式插入报告至少在查询正常运行前10分钟完成(刷新)。在我上面的示例中,
单击
表明这些数据记录非常稀疏,同时,更多的卷记录(如
impression
)工作良好。考虑到这个数据量,流式插入关于
点击
数据很快就完成了,所以最多90分钟已经过去了。我现在面临这个问题,在2020年,我没有流式数据,只是使用视图查询BigQuery中的其他表,有时结果中有行,有时没有。。