Python 如何对使用未知比例因子进行规范化的数据集进行反规范化？_Python_Pandas_Data Analysis

Python 如何对使用未知比例因子进行规范化的数据集进行反规范化？

python pandas

Python 如何对使用未知比例因子进行规范化的数据集进行反规范化？,python,pandas,data-analysis,Python,Pandas,Data Analysis,我使用的数据集按照以下方式规范化（取自上面url中的github）：首先，该算法统计当天/周该区域内每个症状的搜索次数接下来，我们将此计数除以该地区当天/周的搜索用户总数，以计算相对受欢迎程度（这可以解释为该地区的用户在当天/周搜索给定症状的概率）。我们将此比率称为症状的标准化流行程度然后，我们使用所选的时间分辨率（天/周），在该区域的整个发布时间范围内，找到所有症状的标准化流行度的最大值。我们将此最大值缩放为100。所有其他值都映射到0-100范围内的比例较小的值（线性缩放）最后，我们

我使用的数据集按照以下方式规范化（取自上面url中的github）：

首先，该算法统计当天/周该区域内每个症状的搜索次数

接下来，我们将此计数除以该地区当天/周的搜索用户总数，以计算相对受欢迎程度（这可以解释为该地区的用户在当天/周搜索给定症状的概率）。我们将此比率称为症状的标准化流行程度

然后，我们使用所选的时间分辨率（天/周），在该区域的整个发布时间范围内，找到所有症状的标准化流行度的最大值。我们将此最大值缩放为100。所有其他值都映射到0-100范围内的比例较小的值（线性缩放）

最后，我们存储缩放因子，并在后续版本中使用它来缩放值（对于相同的区域和时间分辨率）。在将来的更新中，当症状流行度超过之前观察到的最大值（在步骤3中找到）时，新的缩放值将大于100

当我试图使用数据集预测住院病例时，问题就出现了。由于症状的相对流行程度取决于依赖于状态的比例因子，因此我无法比较不同状态的数据。因此，我需要做的是以某种方式对数据进行非规范化，以发现一般症状的流行程度，而不是与特定状态的流行程度

我试图找到一个解决方案，包括找出一个症状在不同州的中位数相对流行度，以及不同症状在特定州的中位数流行度。我觉得使用这些中位数可以帮助我恢复预规范化数据，但我不确定如何恢复

以下是一个例子：

我正在尝试恢复的预规范化数据：

         | Symptom 1 | Symptom 2 | Symptom 3 |

| State 1| 20/200  | 5/200    | 10/200  |

| State 2 | 30/100  | 1/100  | 20/100   |

| State 3 | 10/50  | 0/50 | 5/50    |

我拥有的标准化后数据：

          | Symptom 1 | Symptom 2 | Symptom 3 |

| State 1 | 100       | 25        | 50        |

| State 2 | 100       | 3.33      | 66.67     |

| State 3 | 100       | 0         | 50        |

不幸的是，从数学上讲，仅给定数据集就无法恢复预标准化数据。尽管谷歌存储了缩放因子，但我们无法获得这些缩放因子，没有它们，我们就没有足够的信息

考虑状态的以下值：

100 | 25 | 50

这可能意味着，对于任何x s.t.0 考虑状态的以下值：

100 | 25 | 50

这可能意味着，对于任何x s.t.0

[pandas]相关文章推荐

随机文章推荐