Python 如何对使用未知比例因子进行规范化的数据集进行反规范化?
我使用的数据集按照以下方式规范化(取自上面url中的github):Python 如何对使用未知比例因子进行规范化的数据集进行反规范化?,python,pandas,data-analysis,Python,Pandas,Data Analysis,我使用的数据集按照以下方式规范化(取自上面url中的github): 首先,该算法统计当天/周该区域内每个症状的搜索次数 接下来,我们将此计数除以该地区当天/周的搜索用户总数,以计算相对受欢迎程度(这可以解释为该地区的用户在当天/周搜索给定症状的概率)。我们将此比率称为症状的标准化流行程度 然后,我们使用所选的时间分辨率(天/周),在该区域的整个发布时间范围内,找到所有症状的标准化流行度的最大值。我们将此最大值缩放为100。所有其他值都映射到0-100范围内的比例较小的值(线性缩放) 最后,我们
| Symptom 1 | Symptom 2 | Symptom 3 |
| State 1| 20/200 | 5/200 | 10/200 |
| State 2 | 30/100 | 1/100 | 20/100 |
| State 3 | 10/50 | 0/50 | 5/50 |
我拥有的标准化后数据:
| Symptom 1 | Symptom 2 | Symptom 3 |
| State 1 | 100 | 25 | 50 |
| State 2 | 100 | 3.33 | 66.67 |
| State 3 | 100 | 0 | 50 |
不幸的是,从数学上讲,仅给定数据集就无法恢复预标准化数据。尽管谷歌存储了缩放因子,但我们无法获得这些缩放因子,没有它们,我们就没有足够的信息 考虑状态的以下值:
100 | 25 | 50
这可能意味着,对于任何x s.t.0
100 | 25 | 50
这可能意味着,对于任何x s.t.0