Python 熊猫分块分组_Python_Pandas_Dataset

Python 熊猫分块分组

python pandas

Python 熊猫分块分组,python,pandas,dataset,Python,Pandas,Dataset,我有一个数据集： df = pd.DataFrame({ 'service': ['a', 'a', 'a', 'b', 'c', 'a', 'a'], 'status': ['problem', 'problem', 'ok', 'problem', 'ok', 'problem', 'ok'], 'created': [ datetime(2019, 1, 1, 1, 1, 0), datetime(2019, 1, 1, 1, 1,

我有一个数据集：

df = pd.DataFrame({
    'service': ['a', 'a', 'a', 'b', 'c', 'a', 'a'],
    'status': ['problem', 'problem', 'ok', 'problem', 'ok', 'problem', 'ok'],
    'created': [
        datetime(2019, 1, 1, 1, 1, 0),
        datetime(2019, 1, 1, 1, 1, 10),
        datetime(2019, 1, 1, 1, 2, 0),
        datetime(2019, 1, 1, 1, 3, 0),
        datetime(2019, 1, 1, 1, 5, 0),
        datetime(2019, 1, 1, 1, 10, 0),
        datetime(2019, 1, 1, 1, 20, 0),
    ],
})

print(df.head(10))

  service   status             created
0       a  problem 2019-01-01 01:01:00  # -\
1       a  problem 2019-01-01 01:01:10  #   --> one group
2       a       ok 2019-01-01 01:02:00  # -/
3       b  problem 2019-01-01 01:03:00
4       c       ok 2019-01-01 01:05:00
5       a  problem 2019-01-01 01:10:00  # -\
6       a       ok 2019-01-01 01:20:00  # - --> one group

  service  downtime_seconds
0       a        60  # `created` difference between 2 and 0
1       a       600  # `created` difference between 6 and 5

您可以看到

服务更改状态

问题->正常（0,2项；5,6项）。您还可以看到3
，4
项没有变化（只有1条记录-没有组/块）。我需要创建下一个数据集：
df = pd.DataFrame({
    'service': ['a', 'a', 'a', 'b', 'c', 'a', 'a'],
    'status': ['problem', 'problem', 'ok', 'problem', 'ok', 'problem', 'ok'],
    'created': [
        datetime(2019, 1, 1, 1, 1, 0),
        datetime(2019, 1, 1, 1, 1, 10),
        datetime(2019, 1, 1, 1, 2, 0),
        datetime(2019, 1, 1, 1, 3, 0),
        datetime(2019, 1, 1, 1, 5, 0),
        datetime(2019, 1, 1, 1, 10, 0),
        datetime(2019, 1, 1, 1, 20, 0),
    ],
})

print(df.head(10))

  service   status             created
0       a  problem 2019-01-01 01:01:00  # -\
1       a  problem 2019-01-01 01:01:10  #   --> one group
2       a       ok 2019-01-01 01:02:00  # -/
3       b  problem 2019-01-01 01:03:00
4       c       ok 2019-01-01 01:05:00
5       a  problem 2019-01-01 01:10:00  # -\
6       a       ok 2019-01-01 01:20:00  # - --> one group

  service  downtime_seconds
0       a        60  # `created` difference between 2 and 0
1       a       600  # `created` difference between 6 and 5

我可以通过迭代
：
for i in range(len(df.index)):
    # if df.loc[i]['status'] blablabla...

是否可以使用pandas
而无需迭代
？也许有更优雅的方法
谢谢。
在您的情况下，我们需要通过颠倒顺序和cumsum
来创建groupby
键，然后我们只需要在分组之前过滤df，使用nunique
和transform

s=df.status.eq('ok').iloc[::-1].cumsum()
con=df.service.groupby(s).transform('nunique')==1
df_g=df[con].groupby(s).agg({'service':'first','created':lambda x : (x.iloc[-1]-x.iloc[0]).seconds})
Out[124]: 
       service  created
status                 
1            a      600
3            a       60