Statistics 算法到"；“平滑化”；用于可视化的数据值_Statistics

Statistics 算法到"；“平滑化”；用于可视化的数据值

statistics

Statistics 算法到"；“平滑化”；用于可视化的数据值,statistics,Statistics,我正在阅读一些世界各国的数据，正在玩谷歌的可视化小工具，尤其是谷歌。问题是，美国总是走在前面。虽然大多数国家的值在1到50之间，但美国的值始终为2000+。这意味着，在视觉上，很难区分所有“小国”之间的区别，因为它们都有大致相同的淡绿色，而美国总是一个胖乎乎的深绿色我并不特别关心可视化的准确性，所以我想稍微平滑或平均一下这些值，以便在非常低、较低和不太低的国家之间存在明显的差异。做这件事的好算法是什么这是一道相当简单的问题，但我根本不是数学爱好者以对数比例显示数据怎么样。这样，10的值转换

我正在阅读一些世界各国的数据，正在玩谷歌的可视化小工具，尤其是谷歌。问题是，美国总是走在前面。虽然大多数国家的值在1到50之间，但美国的值始终为2000+。这意味着，在视觉上，很难区分所有“小国”之间的区别，因为它们都有大致相同的淡绿色，而美国总是一个胖乎乎的深绿色

我并不特别关心可视化的准确性，所以我想稍微平滑或平均一下这些值，以便在非常低、较低和不太低的国家之间存在明显的差异。做这件事的好算法是什么

这是一道相当简单的问题，但我根本不是数学爱好者

以对数比例显示数据怎么样。这样，10的值转换为1，100的值转换为2，1000的值转换为3，依此类推。

如果通常大多数重要数据点之间存在数量级的差异，则可以选择对数刻度

但是，如果您的分布是双模的，那么您最好规范化日志数据，然后对数据进行日志压缩

为此，您必须找到一个与美国2000+相关的参数（可能是GDP？），并将所有数据点标准化为该数字的区域值。Thn您将在直观的颜色贴图中看到您感兴趣的精确差异。

注意，0转换为负无穷大，这可能会导致问题。一个实用的技巧是使用log（1+x）或log（0.001+x）或任何适合您的方法，或者使用log（min（1，x））、log（min（0.001，x））等。