Algorithm 在计算趋势时,如何解释样本量低?

Algorithm 在计算趋势时,如何解释样本量低?,algorithm,google-maps,language-agnostic,statistics,Algorithm,Google Maps,Language Agnostic,Statistics,我正在做一些工作,处理一个月内房屋审批的统计数据。我希望能够展示趋势——也就是说,自上个月以来,哪些领域出现了较大的相对增加或减少 我的第一个天真的方法是只计算两个月之间的百分比变化,但在数据非常低的情况下会出现问题——任何变化都会被放大: // diff = (new - old) / old Area | June | July | Diff | --------------|--------|--------|--------| South Sydney

我正在做一些工作,处理一个月内房屋审批的统计数据。我希望能够展示趋势——也就是说,自上个月以来,哪些领域出现了较大的相对增加或减少

我的第一个天真的方法是只计算两个月之间的百分比变化,但在数据非常低的情况下会出现问题——任何变化都会被放大:

// diff = (new - old) / old
     Area      |  June  |  July  |  Diff  |
 --------------|--------|--------|--------|
 South Sydney  |   427  |   530  |  +24%  |
 North Sydney  |   167  |   143  |  -14%  |
 Dubbo         |     1  |     3  | +200%  |
我不想忽略任何区域或值作为异常值,但我不希望Dubbo每月增加2个,超过南悉尼103个。有没有更好的公式可以用来显示更有用的趋势信息

这些数据最终被绘制在谷歌地图上。在第一次尝试中,我只是将差异转换为“热图颜色”(蓝色-减少,绿色-不变,红色-增加)。也许使用其他一些指标来改变每个区域的视图可能是一种解决方案,例如,根据批准总数或类似情况更改alpha通道,在这种情况下,Dubbo将是鲜红色,但相当透明,而南悉尼将更接近黄色,但相当不透明


关于显示这些数据的最佳方式有什么想法吗?

这确实是一个统计问题。我不是统计学家,但我怀疑答案是这样的:你没有数据——你期望什么

也许你可以把Dubbo和附近的地区合并?您已将数据切片到足够小的程度,使信号降至噪声以下


你也可以不显示Dubbo,或者为没有足够的数据制作一个颜色。

对于热图,你通常试图显示容易吸收的信息。任何过于复杂的事情都可能适得其反

在Dubbo的案例中,现实情况是你没有数据得出任何关于它的确定结论,所以我会把它涂成白色,比如说。您也可以使用差值/当前值对其进行标记


我认为这比可能误导用户更可取。

我有点喜欢你的透明度想法——你有信心的数据是不透明的,而你没有信心的数据是透明的。用户很容易理解,但它看起来很凌乱

我的建议:不要使用热图。它用于连续数据,而离散数据。使用点。颜色表示周围区域的增加/减少,原始体积与点的大小成比例


现在,用户如何知道点代表什么区域?南悉尼在哪里转变成北悉尼?最好的方法是在点之间添加指导线,但巧妙放置的矩形也可以。如果每个区域的面积以平方公里为单位,您可以通过计算家庭批准数/km^2来规范化数据,以获得家庭批准密度,并将其用于等式中,而不是家庭批准数。这是解决问题,如果Dubbo由于其规模比其他地区包含更少的房屋审批。如果有,你也可以按人口进行标准化,以获得每人的住房批准数量。

也许你可以使用总数。将所有旧值和新值相加,得出旧值=595,新值=676,差值=+13.6%。然后根据旧的总数计算变化,这三个地方的变化率为+17.3%/-4.0%/+0.3%。

研究统计显著性的测量方法。它可以像假设统计数字一样简单

在一个非常简单的版本中,你策划的东西是

 (A_2 - A_1)/sqrt(A_2 + A_1)
i、 e.在简单计数统计中改变1西格玛

这使得上面的图表看起来像:

Area    Reduced difference
--------------------------
S.S.    +3.3  
N.S.    -1.3  
D.      +1.0
这意味着南悉尼经历了显著的(即,重要的,可能与真正的根本原因有关)增长,而北悉尼和Dubbo感觉到了相对较小的变化,可能指向也可能不指向趋势。经验法则

  • 1西格玛变化只是噪音
  • 3西格玛变化可能指向一个潜在的原因(因此是对趋势的预期)
  • 5西格玛的变化几乎肯定表明了一种趋势

利率非常低的区域(如Dubbo)仍将不稳定,但它们不会压倒显示器。

我强烈建议采用分层模型(即部分池)。Gelman和Hill使用回归和多级/分层模型进行数据分析是这一主题的优秀资源。

您可以使用像Fischer精确检验这样的精确检验,也可以使用sudent t t检验,这两种检验都是为低样本量设计的

值得注意的是,t检验与z检验几乎相同,但在t检验中,你不必知道标准偏差,也不必像做z检验那样近似


在99.99%的情况下,由于中心极限定理(形式上,你只需要基础分布X具有有限方差),你可以应用z或t检验而无需任何理由。fisher检验也不需要理由,它是精确的,并且不做任何假设。

我实际上有每个区域的KML数据,所以我可以精确地绘制每个区域的边界。。。或者你是在建议忽略这一点而使用不同的东西吗?统计、数据分析和定量显示并不是编程本身,而是有时交给程序员处理的问题。关于后一个问题的经典参考:,这对于任何需要显示数据的人来说都是值得一读的。即使你只使用excel。