Statistics 结合WHERE子句使用BigQuery查找标准偏差结果的异常值

Statistics 结合WHERE子句使用BigQuery查找标准偏差结果的异常值,statistics,google-bigquery,standard-deviation,Statistics,Google Bigquery,Standard Deviation,标准差分析是发现异常值的有用方法。是否有方法合并此查询的结果(查找远离平均值的第四个标准偏差的值) 结果=12.721342001626912 …进入另一个查询,该查询生成关于哪些州和日期的婴儿出生体重超过平均值4个标准差的信息 SELECT state, year, month ,COUNT(*) AS outlier_count FROM [publicdata:samples.natality] WHERE (weight_pounds > 12.721342001626912

标准差分析是发现异常值的有用方法。是否有方法合并此查询的结果(查找远离平均值的第四个标准偏差的值)

结果=12.721342001626912

…进入另一个查询,该查询生成关于哪些州和日期的婴儿出生体重超过平均值4个标准差的信息

SELECT state, year, month ,COUNT(*) AS outlier_count
 FROM [publicdata:samples.natality]
WHERE
  (weight_pounds > 12.721342001626912)
AND
  (state != '' AND state IS NOT NULL)
GROUP BY state, year, month 
ORDER BY outlier_count DESC;
结果:

Row  state   year    month   outlier_count    
1    MD  1990    12  22   
2    NY  1989    10  17   
3    CA  1991    9   14

从本质上讲,将其合并到一个查询中是非常好的。

您可以为此滥用JOIN(从而影响性能):


您可以为此滥用JOIN(从而影响性能):


我想这是对的。。。但不管是对是错,我给“巨人宝宝”的别名加1,这仍然让我在键入时咯咯地笑。此外,我认为BigQuery社区需要做更多的分析,以确定马里兰州在1990年12月有这么多巨人宝宝的确切原因。我认为这是正确的。。。但不管这是对是错,我给“巨人宝宝”的别名加了+1,这仍然让我在键入时咯咯地笑。此外,我认为BigQuery社区需要做更多的分析来确定马里兰州在1990年12月有这么多巨人宝宝的确切原因。
Row  state   year    month   outlier_count    
1    MD  1990    12  22   
2    NY  1989    10  17   
3    CA  1991    9   14
SELECT n.state, n.year, n.month ,COUNT(*) AS outlier_count
FROM (
  SELECT state, year, month, weight_pounds, 1 as key 
  FROM [publicdata:samples.natality]) as n
JOIN (
  SELECT (AVG(weight_pounds) + STDDEV(weight_pounds) * 4) as giant_baby, 
          1 as key 
  FROM [publicdata:samples.natality]) as o
ON n.key = o.key
WHERE
  (n.weight_pounds > o.giant_baby)
AND
  (n.state != '' AND n.state IS NOT NULL)
GROUP BY n.state, n.year, n.month 
ORDER BY outlier_count DESC;