Google bigquery BigQuery:面对流式插入,集群表是否保持排序?

Google bigquery BigQuery:面对流式插入,集群表是否保持排序?,google-bigquery,Google Bigquery,我有每小时一次的批处理作业,需要扫描过去一小时内流入表中的所有数据。现在我使用的是一个日期分区表,这意味着每次我扫描一个日期分区一小时的数据时,我必须扫描当天所有时间的行 我一直在考虑在一个小时字段上对这个表进行集群,但是我的印象是,面对流式插入,BigQuery实际上不会有效地对该表进行集群。所以我的问题是: BigQuery是否保证即使在流式插入时也能保持聚集表的排序?目前答案是否定的,在流式插入时聚集表不会保持排序/聚集。非常感谢塔米尔指出有一个与这个问题相关的答案。请查看该答案,了解详细

我有每小时一次的批处理作业,需要扫描过去一小时内流入表中的所有数据。现在我使用的是一个日期分区表,这意味着每次我扫描一个日期分区一小时的数据时,我必须扫描当天所有时间的行

我一直在考虑在一个小时字段上对这个表进行集群,但是我的印象是,面对流式插入,BigQuery实际上不会有效地对该表进行集群。所以我的问题是:

BigQuery是否保证即使在流式插入时也能保持聚集表的排序?

目前答案是否定的,在流式插入时聚集表不会保持排序/聚集。非常感谢塔米尔指出有一个与这个问题相关的答案。请查看该答案,了解详细信息以及强制对分区的一部分进行排序的技巧

看起来BigQuery团队也在处理这个问题。自2019年4月17日起:

我们在流媒体方面做了大量的工作,以使表在最近的某个时间间隔内保持集群。我们没有一个很好的埃塔提供这一点上,但我们希望有更多的信息很快


您好@conradlee,不确定您使用的术语“排序”,但在流式插入之后,集群会随着时间的推移而减弱,请参阅答案。如果这还不能为您澄清问题,请提供更多详细信息(注意:您可以使用Merge命令解决此问题,但这将花费您每个Merge命令的费用BigQuery pricing)@Tamir Klein感谢链接。正如Felipe Hoffa在回答您所链接的问题时指出的,我使用“排序”一词是因为“当您对一个表进行集群时,您基本上是在选择如何在存储时对其进行物理排序。”