Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/280.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 按组列出的时间累积总和_Python_Pandas_Group By_Time Series - Fatal编程技术网

Python 按组列出的时间累积总和

Python 按组列出的时间累积总和,python,pandas,group-by,time-series,Python,Pandas,Group By,Time Series,我有一个数据帧,其中每个id记录1个或多个事件。对于每个事件,记录id、度量x和日期。大概是这样的: import pandas as pd import datetime as dt import numpy as np x = range(0, 6) id = ['a', 'a', 'b', 'a', 'b', 'b'] dates = [dt.datetime(2012, 5, 2),dt.datetime(2012, 4, 2),dt.datetime(2012, 6, 2),

我有一个数据帧,其中每个id记录1个或多个事件。对于每个事件,记录id、度量x和日期。大概是这样的:

import pandas as pd
import datetime as dt
import numpy as np
x = range(0, 6)
id = ['a', 'a', 'b', 'a', 'b', 'b']
dates = [dt.datetime(2012, 5, 2),dt.datetime(2012, 4, 2),dt.datetime(2012, 6, 2),
         dt.datetime(2012, 7, 30),dt.datetime(2012, 4, 1),dt.datetime(2012, 5, 9)]

df =pd.DataFrame(np.column_stack((id,x,dates)), columns = ['id', 'x', 'dates'])
我希望能够设置回望期(即70天),并为数据集中的每一行计算该id的任何先前事件在所需回望期内的累积和x(不包括正在执行计算的行的x)。 最终应该看起来像:

  id  x                dates    want
0  a  0  2012-05-02 00:00:00    1
1  a  1  2012-04-02 00:00:00    0
2  b  2  2012-06-02 00:00:00    9
3  a  3  2012-07-30 00:00:00    0
4  b  4  2012-04-01 00:00:00    0
5  b  5  2012-05-09 00:00:00    4

好的,一种方法如下:(1)使用'id'作为分组变量,执行
groupby/apply
。(2) 在应用中,
将组重新采样为每日时间序列。(3) 然后只需使用
rolling\u sum
(和shift,以便不包括当前行的“x”值)来计算70天回顾期的总和。(4) 将小组缩小到仅原始观察值:

In [12]: df = df.sort(['id','dates'])
In [13]: df
Out[13]: 
  id  x      dates
1  a  1 2012-04-02
0  a  0 2012-05-02
3  a  3 2012-07-30
4  b  4 2012-04-01
5  b  5 2012-05-09
2  b  2 2012-06-02
您需要按
['id','dates']
对数据进行排序。现在我们可以执行
groupby/apply

In [15]: def past70(g):
             g = g.set_index('dates').resample('D','last')
             g['want'] = pd.rolling_sum(g['x'],70,0).shift(1)
             return g[g.x.notnull()]            

In [16]: df = df.groupby('id').apply(past70).drop('id',axis=1)
In [17]: df
Out[17]: 
               x  want
id dates              
a  2012-04-02  1   NaN
   2012-05-02  0     1
   2012-07-30  3     0
b  2012-04-01  4   NaN
   2012-05-09  5     4
   2012-06-02  2     9
如果您不想要NAN,请执行以下操作:

In [28]: df.fillna(0)
Out[28]: 
               x  want
id dates              
a  2012-04-02  1     0
   2012-05-02  0     1
   2012-07-30  3     0
b  2012-04-01  4     0
   2012-05-09  5     4
   2012-06-02  2     9
编辑:如果要使回望窗口成为参数,请执行以下操作:

def past_window(g,win=70):
    g = g.set_index('dates').resample('D','last')
    g['want'] = pd.rolling_sum(g['x'],win,0).shift(1)
    return g[g.x.notnull()]            

df = df.groupby('id').apply(past_window,win=10)
print df.fillna(0)

我需要做一些类似的事情,所以我看了看熊猫的食谱(我热烈推荐给任何愿意了解这个包的所有可能性的人),这页:。在pandas的最新版本中,您可以根据类似date_time的列向rolling()函数传递一个用于计算窗口的附加参数。因此,示例变得更简单:

# First, convert the dates to date time to make sure it's compatible
df['dates'] = pd.to_datetime(df['dates'])

# Then, sort the time series so that it is monotonic
df.sort_values(['id', 'dates'], inplace=True)

# '70d' corresponds to the the time window we are considering
# The 'closed' parameter indicates whether to include the interval bounds
# 'yearfirst' indicates to pandas the format of your time series
df['want'] = df.groupby('id').rolling('70d', on='dates', closed='neither',
                                      yearfirst=True)['x'].sum().to_numpy()

df['want'] = np.where(df['want'].isnull(), 0, df['want']).astype(int)
df.sort_index() # to dispay it in the same order as the example provided
  id  x      dates  want
0  a  0 2012-05-02     1
1  a  1 2012-04-02     0
2  b  2 2012-06-02     9
3  a  3 2012-07-30     0
4  b  4 2012-04-01     0
5  b  5 2012-05-09     4

谢谢,这个似乎可以!如果我想让70成为pass函数的参数(即def pass(g,lookback)),那么如何将该参数传递给.apply(pass)?它只是
apply
中的下一个参数。有关详细信息,请参见我的编辑。