根据python中的另一个输入变量缩放输入特性_Python_Scaling

根据python中的另一个输入变量缩放输入特性

python

根据python中的另一个输入变量缩放输入特性,python,scaling,Python,Scaling,我正在使用运动员和足球运动员的GPS数据集我有6个输入/预测变量，其中3个变量取决于“播放时间”输入变量。如果播放的时间改变，这三个变量将改变 reproducible code: df = {'player id' : ['1','2' ,'3','4'], #categorical 'position' : ['1','2' ,'3','4'], #categorical 'time_played': ['50','90' ,'88','70'],

我正在使用运动员和足球运动员的GPS数据集

我有6个输入/预测变量，其中3个变量取决于“播放时间”输入变量。如果播放的时间改变，这三个变量将改变

reproducible code:

df = {'player id' : ['1','2' ,'3','4'],     #categorical
  'position' : ['1','2' ,'3','4'],          #categorical
  'time_played': ['50','90' ,'88','70'],
  'distance': ['5117','11520' ,'10865','8652'],
  'acc_events' : ['2','4' ,'8','8'],
  'dec_events' : ['8','11' ,'14','9'],
  'energy' : ['29157','49520' ,'47865','39552'] }

Objective: 

Predicting the energy for each player for 90 mins.

我需要将所有这些时间相关变量（距离、acc_事件和dec_事件）缩放到90分钟。一旦我将这些变量缩放到90分钟，我就能够预测这些新缩放变量90分钟的输出变量（能量）

由于我这里有两个分类变量，“玩家id”和“位置”，我认为使用最小-最大归一化方法不会给我一个有效的结果

x_normalised = [ { x - min(x) } / { max(x) - min(x) } ] * 90

有没有办法将这些依赖于时间的输入变量缩放到90分钟，然后使用缩放值预测输出/能量

任何建议/帮助都会非常有用。

TIA。

我不确定我是否理解您将它们扩展到90分钟的意思。但是你不需要将它们除以播放的时间来得到例如每分钟的距离吗？是的，我可以做能量/播放的时间来得到每分钟的能量，然后乘以90得到90分钟的能量。但准确度不高。所以，我试图预测每个球员的能量（使用线性回归），如果他已经踢了90分钟。此外，所有的玩家都没有玩满90分钟，所以为了有一个统一的时间框架，我需要计算90分钟的能量，通过计算其他依赖时间的输入特性也计算90分钟的能量。