Algorithm 在计算趋势时，如何解释样本量低？_Algorithm_Google Maps_Language Agnostic_Statistics

Algorithm 在计算趋势时，如何解释样本量低？

algorithm google-maps language-agnostic statistics

Algorithm 在计算趋势时，如何解释样本量低？,algorithm,google-maps,language-agnostic,statistics,Algorithm,Google Maps,Language Agnostic,Statistics,我正在做一些工作，处理一个月内房屋审批的统计数据。我希望能够展示趋势——也就是说，自上个月以来，哪些领域出现了较大的相对增加或减少我的第一个天真的方法是只计算两个月之间的百分比变化，但在数据非常低的情况下会出现问题——任何变化都会被放大： // diff = (new - old) / old Area | June | July | Diff | --------------|--------|--------|--------| South Sydney

我正在做一些工作，处理一个月内房屋审批的统计数据。我希望能够展示趋势——也就是说，自上个月以来，哪些领域出现了较大的相对增加或减少

我的第一个天真的方法是只计算两个月之间的百分比变化，但在数据非常低的情况下会出现问题——任何变化都会被放大：

// diff = (new - old) / old
     Area      |  June  |  July  |  Diff  |
 --------------|--------|--------|--------|
 South Sydney  |   427  |   530  |  +24%  |
 North Sydney  |   167  |   143  |  -14%  |
 Dubbo         |     1  |     3  | +200%  |

我不想忽略任何区域或值作为异常值，但我不希望Dubbo每月增加2个，超过南悉尼103个。有没有更好的公式可以用来显示更有用的趋势信息

这些数据最终被绘制在谷歌地图上。在第一次尝试中，我只是将差异转换为“热图颜色”（蓝色-减少，绿色-不变，红色-增加）。也许使用其他一些指标来改变每个区域的视图可能是一种解决方案，例如，根据批准总数或类似情况更改alpha通道，在这种情况下，Dubbo将是鲜红色，但相当透明，而南悉尼将更接近黄色，但相当不透明

关于显示这些数据的最佳方式有什么想法吗？

这确实是一个统计问题。我不是统计学家，但我怀疑答案是这样的：你没有数据——你期望什么

也许你可以把Dubbo和附近的地区合并？您已将数据切片到足够小的程度，使信号降至噪声以下

你也可以不显示Dubbo，或者为没有足够的数据制作一个颜色。

对于热图，你通常试图显示容易吸收的信息。任何过于复杂的事情都可能适得其反

在Dubbo的案例中，现实情况是你没有数据得出任何关于它的确定结论，所以我会把它涂成白色，比如说。您也可以使用差值/当前值对其进行标记

我认为这比可能误导用户更可取。

我有点喜欢你的透明度想法——你有信心的数据是不透明的，而你没有信心的数据是透明的。用户很容易理解，但它看起来很凌乱
我的建议：不要使用热图。它用于连续数据，而离散数据。使用点。颜色表示周围区域的增加/减少，原始体积与点的大小成比例

现在，用户如何知道点代表什么区域？南悉尼在哪里转变成北悉尼？最好的方法是在点之间添加指导线，但巧妙放置的矩形也可以。如果每个区域的面积以平方公里为单位，您可以通过计算家庭批准数/km^2来规范化数据，以获得家庭批准密度，并将其用于等式中，而不是家庭批准数。这是解决问题，如果Dubbo由于其规模比其他地区包含更少的房屋审批。如果有，你也可以按人口进行标准化，以获得每人的住房批准数量。
也许你可以使用总数。将所有旧值和新值相加，得出旧值=595，新值=676，差值=+13.6%。然后根据旧的总数计算变化，这三个地方的变化率为+17.3%/-4.0%/+0.3%。
研究统计显著性的测量方法。它可以像假设统计数字一样简单
在一个非常简单的版本中，你策划的东西是

(A_2 - A_1)/sqrt(A_2 + A_1)
i、 e.在简单计数统计中改变1西格玛
这使得上面的图表看起来像：

Area Reduced difference -------------------------- S.S. +3.3 N.S. -1.3 D. +1.0
这意味着南悉尼经历了显著的（即，重要的，可能与真正的根本原因有关）增长，而北悉尼和Dubbo感觉到了相对较小的变化，可能指向也可能不指向趋势。经验法则

1西格玛变化只是噪音

3西格玛变化可能指向一个潜在的原因（因此是对趋势的预期）

5西格玛的变化几乎肯定表明了一种趋势

利率非常低的区域（如Dubbo）仍将不稳定，但它们不会压倒显示器。
我强烈建议采用分层模型（即部分池）。Gelman和Hill使用回归和多级/分层模型进行数据分析是这一主题的优秀资源。
您可以使用像Fischer精确检验这样的精确检验，也可以使用sudent t t检验，这两种检验都是为低样本量设计的
值得注意的是，t检验与z检验几乎相同，但在t检验中，你不必知道标准偏差，也不必像做z检验那样近似

在99.99%的情况下，由于中心极限定理（形式上，你只需要基础分布X具有有限方差），你可以应用z或t检验而无需任何理由。fisher检验也不需要理由，它是精确的，并且不做任何假设。
我实际上有每个区域的KML数据，所以我可以精确地绘制每个区域的边界。。。或者你是在建议忽略这一点而使用不同的东西吗？统计、数据分析和定量显示并不是编程本身，而是有时交给程序员处理的问题。关于后一个问题的经典参考：，这对于任何需要显示数据的人来说都是值得一读的。即使你只使用excel。