Python 在组中使用pandas.shift()

Python 在组中使用pandas.shift(),python,pandas,pandas-groupby,Python,Pandas,Pandas Groupby,我有一个带有面板数据的数据框,假设它是100个不同对象的时间序列: object period value 1 1 24 1 2 67 ... 1 1000 56 2 1 59 2 2 46 ... 2 1000 64 3 1 54 ... 100 1 451 100 2 153 ... 100

我有一个带有面板数据的数据框,假设它是100个不同对象的时间序列:

object  period  value 
1       1       24
1       2       67
...
1       1000    56
2       1       59
2       2       46
...
2       1000    64
3       1       54
...
100     1       451
100     2       153
...
100     1000    21
我想添加一个新列
prev_value
,该列将存储每个对象以前的

object  period  value  prev_value
1       1       24     nan
1       2       67     24
...
1       99      445    1243
1       1000    56     445
2       1       59     nan
2       2       46     59
...
2       1000    64     784
3       1       54     nan
...
100     1       451    nan
100     2       153    451
...
100     1000    21     1121

我可以用.shift()和.groupby()来实现这一点吗?

熊猫的分组对象有一个方法,它将在每个组n
时段中移动指定的列,就像常规数据帧的
shift
方法一样:

df['prev_value'] = df.groupby('object')['value'].shift()
对于以下示例数据帧:

print(df)

     object  period  value
0       1       1     24
1       1       2     67
2       1       4     89
3       2       4      5
4       2      23     23
结果将是:

     object  period  value  prev_value
0       1       1     24         NaN
1       1       2     67        24.0
2       1       4     89        67.0
3       2       4      5         NaN
4       2      23     23         5.0

如果数据帧已按分组键排序,则可以对整个数据帧使用单个
shift
,对溢出到下一组的行使用
where
to
NaN
。对于具有多个组的较大数据帧,这可能会快一点

df['prev_value'] = df['value'].shift().where(df.object.eq(df.object.shift()))

   object  period  value  prev_value
0       1       1     24         NaN
1       1       2     67        24.0
2       1       4     89        67.0
3       2       4      5         NaN
4       2      23     23         5.0

一些与性能相关的时间安排:

import perfplot
import pandas as pd
import numpy as np

perfplot.show(
    setup=lambda N: pd.DataFrame({'object': np.repeat(range(N), 5), 
                                  'value': np.random.randint(1, 1000, 5*N)}), 
    kernels=[
        lambda df: df.groupby('object')['value'].shift(),
        lambda df: df['value'].shift().where(df.object.eq(df.object.shift())),
    ],
    labels=["GroupBy", "Where"],
    n_range=[2 ** k for k in range(1, 22)],
    equality_check=lambda x,y: np.allclose(x, y, equal_nan=True),
    xlabel="# of Groups"
)