Google bigquery 基于行“距离”的数据点聚类

Google bigquery 基于行“距离”的数据点聚类,google-bigquery,Google Bigquery,我有一个带有多个时间戳的数据集。我想将它们分组,每组由间隔不超过X小时的数据点组成。这意味着每个小组最晚相隔X小时 有什么想法吗?你必须介绍一个专栏,通过它你可以进行聚类。如果我没弄错的话,大概需要几个小时。由于需要确定行是否在群集中,因此不能使用动态距离群。 但是您可以提取小时信息并使用它创建集群。 例如,使用小时-小时/组大小的模数 用AS 从UNNEST中选择*[ 时间0,40,0,时间1,23,0, 时间2,12,0,时间3,51,0, 时间4,1,0,时间5,51,0, 时间6,5,0

我有一个带有多个时间戳的数据集。我想将它们分组,每组由间隔不超过X小时的数据点组成。这意味着每个小组最晚相隔X小时


有什么想法吗?

你必须介绍一个专栏,通过它你可以进行聚类。如果我没弄错的话,大概需要几个小时。由于需要确定行是否在群集中,因此不能使用动态距离群。 但是您可以提取小时信息并使用它创建集群。 例如,使用小时-小时/组大小的模数

用AS 从UNNEST中选择*[ 时间0,40,0,时间1,23,0, 时间2,12,0,时间3,51,0, 时间4,1,0,时间5,51,0, 时间6,5,0,时间7,21,0, 时间8,56,0,时间9,34,0, 时间10,23,0,时间20,04,0, 时间23,43,0 ]随着时间的推移 选择 时间 从时间一开始的一个小时, 从时间模式提取小时从时间模式提取小时,2 2, 从时间模式提取小时从时间模式提取小时,3 3, 从时间模式提取小时从时间模式提取小时,4 4 从
因此,这是一组具有一定规模的小时。

你不能这样做。只能在最多四个特定列上进行聚类。提交是您唯一可以做的事情,因为群集不支持此功能,它是自动群集,因此它将基于数据量和基数,使用用户指定的范围。为了澄清这一点,听起来您想要范围分区之类的东西?指定数据将被划分的值的范围,即a到b之间的范围,以x为间隔?