Python 如何对使用未知比例因子进行规范化的数据集进行反规范化?

Python 如何对使用未知比例因子进行规范化的数据集进行反规范化?,python,pandas,data-analysis,Python,Pandas,Data Analysis,我使用的数据集按照以下方式规范化(取自上面url中的github): 首先,该算法统计当天/周该区域内每个症状的搜索次数 接下来,我们将此计数除以该地区当天/周的搜索用户总数,以计算相对受欢迎程度(这可以解释为该地区的用户在当天/周搜索给定症状的概率)。我们将此比率称为症状的标准化流行程度 然后,我们使用所选的时间分辨率(天/周),在该区域的整个发布时间范围内,找到所有症状的标准化流行度的最大值。我们将此最大值缩放为100。所有其他值都映射到0-100范围内的比例较小的值(线性缩放) 最后,我们

我使用的数据集按照以下方式规范化(取自上面url中的github):

  • 首先,该算法统计当天/周该区域内每个症状的搜索次数
  • 接下来,我们将此计数除以该地区当天/周的搜索用户总数,以计算相对受欢迎程度(这可以解释为该地区的用户在当天/周搜索给定症状的概率)。我们将此比率称为症状的标准化流行程度
  • 然后,我们使用所选的时间分辨率(天/周),在该区域的整个发布时间范围内,找到所有症状的标准化流行度的最大值。我们将此最大值缩放为100。所有其他值都映射到0-100范围内的比例较小的值(线性缩放)
  • 最后,我们存储缩放因子,并在后续版本中使用它来缩放值(对于相同的区域和时间分辨率)。在将来的更新中,当症状流行度超过之前观察到的最大值(在步骤3中找到)时,新的缩放值将大于100
  • 当我试图使用数据集预测住院病例时,问题就出现了。由于症状的相对流行程度取决于依赖于状态的比例因子,因此我无法比较不同状态的数据。因此,我需要做的是以某种方式对数据进行非规范化,以发现一般症状的流行程度,而不是与特定状态的流行程度

    我试图找到一个解决方案,包括找出一个症状在不同州的中位数相对流行度,以及不同症状在特定州的中位数流行度。我觉得使用这些中位数可以帮助我恢复预规范化数据,但我不确定如何恢复

    以下是一个例子:

    我正在尝试恢复的预规范化数据:

             | Symptom 1 | Symptom 2 | Symptom 3 |
    
    | State 1| 20/200  | 5/200    | 10/200  |
    
    | State 2 | 30/100  | 1/100  | 20/100   |
    
    | State 3 | 10/50  | 0/50 | 5/50    |
    
    我拥有的标准化后数据:

              | Symptom 1 | Symptom 2 | Symptom 3 |
    
    | State 1 | 100       | 25        | 50        |
    
    | State 2 | 100       | 3.33      | 66.67     |
    
    | State 3 | 100       | 0         | 50        |
    

    不幸的是,从数学上讲,仅给定数据集就无法恢复预标准化数据。尽管谷歌存储了缩放因子,但我们无法获得这些缩放因子,没有它们,我们就没有足够的信息

    考虑状态的以下值:

    100 | 25 | 50
    

    这可能意味着,对于任何x s.t.0 考虑状态的以下值:

    100 | 25 | 50
    

    这可能意味着,对于任何x s.t.0