Statistics 算法到";“平滑化”;用于可视化的数据值

Statistics 算法到";“平滑化”;用于可视化的数据值,statistics,Statistics,我正在阅读一些世界各国的数据,正在玩谷歌的可视化小工具,尤其是谷歌。问题是,美国总是走在前面。虽然大多数国家的值在1到50之间,但美国的值始终为2000+。这意味着,在视觉上,很难区分所有“小国”之间的区别,因为它们都有大致相同的淡绿色,而美国总是一个胖乎乎的深绿色 我并不特别关心可视化的准确性,所以我想稍微平滑或平均一下这些值,以便在非常低、较低和不太低的国家之间存在明显的差异。做这件事的好算法是什么 这是一道相当简单的问题,但我根本不是数学爱好者 以对数比例显示数据怎么样。这样,10的值转换

我正在阅读一些世界各国的数据,正在玩谷歌的可视化小工具,尤其是谷歌。问题是,美国总是走在前面。虽然大多数国家的值在1到50之间,但美国的值始终为2000+。这意味着,在视觉上,很难区分所有“小国”之间的区别,因为它们都有大致相同的淡绿色,而美国总是一个胖乎乎的深绿色

我并不特别关心可视化的准确性,所以我想稍微平滑或平均一下这些值,以便在非常低、较低和不太低的国家之间存在明显的差异。做这件事的好算法是什么


这是一道相当简单的问题,但我根本不是数学爱好者

以对数比例显示数据怎么样。这样,10的值转换为1,100的值转换为2,1000的值转换为3,依此类推。

如果通常大多数重要数据点之间存在数量级的差异,则可以选择对数刻度

但是,如果您的分布是双模的,那么您最好规范化日志数据,然后对数据进行日志压缩


为此,您必须找到一个与美国2000+相关的参数(可能是GDP?),并将所有数据点标准化为该数字的区域值。Thn您将在直观的颜色贴图中看到您感兴趣的精确差异。

注意,0转换为负无穷大,这可能会导致问题。一个实用的技巧是使用log(1+x)或log(0.001+x)或任何适合您的方法,或者使用log(min(1,x))、log(min(0.001,x))等。