Python 如何从DataFrame获取行块？_Python_Pandas

Python 如何从DataFrame获取行块？

python pandas

Python 如何从DataFrame获取行块？,python,pandas,Python,Pandas,这是指我的问题的数据帧df： 2018-03-04 21:25:19 8.0 2018-03-04 21:26:19 9.0 2018-03-04 21:27:19 9.5 2018-03-04 21:28:19 11.5 2018-03-04 21:29:19 11.9 2018-03-04 21:30:19 12.9 2018-03-04 21:31:19 14.2 2018-03-04 21:32:19 15.2 2018-03-04 21:33:19 15.5 2018

这是指我的问题的数据帧df：

2018-03-04 21:25:19  8.0
2018-03-04 21:26:19  9.0
2018-03-04 21:27:19  9.5
2018-03-04 21:28:19  11.5
2018-03-04 21:29:19  11.9
2018-03-04 21:30:19  12.9
2018-03-04 21:31:19  14.2
2018-03-04 21:32:19  15.2
2018-03-04 21:33:19  15.5
2018-03-04 21:34:19  16.5
2018-03-04 21:35:19  14.8
2018-03-04 21:36:19  13.7
2018-03-04 21:37:19  11.0
2018-03-04 21:38:19  9.9

我有一段代码，它根据一个条件从pandas DataFrame检索行。条件是列

col1

的值应介于10和15之间：

lower_bound = 10
upper_bound = 15

s_l=df["col1"].lt(lower_bound)
s_u=df["col1"].gt(upper_bound)

s = s_l | s_u

if (len(s)>0):
    df1=df[~s].copy()
    if df1.empty:
        print(None)
    else:
        s1=df1.groupby(s.cumsum()).date_time.transform(lambda x : x.max()-x.min()).dt.seconds
        print(df1.loc[(s1>1*60)])
else:
    print(None)

此函数应标识符合条件的两个行块：

2018-03-04 21:28:19  11.5
2018-03-04 21:29:19  11.9
2018-03-04 21:30:19  12.9
2018-03-04 21:31:19  14.2

及

问题是这段代码将它们合并到一个块中。我的最终目标是获得第一个区块的结束时间，即

2018-03-04 21:31:19

。我怎么做

更新（基于Quang的回答）：

错误：

KeyError:“日期\时间”

尝试：

输出：

+-------+-------+---------------------+------+
|       |       |        date         | col1 |
+-------+-------+---------------------+------+
| block | index |                     |      |
+-------+-------+---------------------+------+
| 3     | 3     | 2018-03-04 21:28:19 | 11.5 |
|       | 4     | 2018-03-04 21:29:19 | 11.9 |
|       | 5     | 2018-03-04 21:30:19 | 12.9 |
|       | 6     | 2018-03-04 21:31:19 | 14.2 |
| 6     | 10    | 2018-03-04 21:35:19 | 14.8 |
|       | 11    | 2018-03-04 21:36:19 | 13.7 |
|       | 12    | 2018-03-04 21:37:19 | 11.0 |
+-------+-------+---------------------+------+

您可以通过以下方式选择跨越60秒以上的块：

s1 = new_df.groupby('block').date.transform(lambda x: x.max()-x.min()).dt.seconds
new_df[s1>60]

在我的代码中，

date

是时间戳列的名称。将其更改为您的实际数据。

s=df['col1']。介于（10,15）之间
拆分_dfs=[]
对于df[s].groupby（df[s].index-np.arange（df[s].shape[0]）中的k，g：
拆分dfs.append（g）
_first_块中的最后一个_值_=split_dfs[0]。loc[-1]

谢谢。请说明我如何检索第一个区块结束时的日期（

2018-03-04 21:31:19

）。我不想按行id来做，因为它应该是灵活的。

new_-df.groupby（'block'）.date.last（）提供每个块的最后日期，而new_-df.groupby（'block'）.date.max（）提供最新日期。酷！非常感谢。有一件事。我没有在您的解决方案中找到条件（s1>min\u duration*60）
？另外，行new\u df.groupby（'block'）.date（）
失败，表示没有名为date的列。我检查了new_df
是否确实有date
列。WeirdI不知道为什么这是个问题。另一个注释：len（s）==0
相当于df1。为空，因此无需检查两次。
s = df['col1'].between(10,15)
df['block'] = (~s).cumsum()
new_df = df[s].reset_index().set_index(['block', 'index'])

+-------+-------+---------------------+------+
|       |       |        date         | col1 |
+-------+-------+---------------------+------+
| block | index |                     |      |
+-------+-------+---------------------+------+
| 3     | 3     | 2018-03-04 21:28:19 | 11.5 |
|       | 4     | 2018-03-04 21:29:19 | 11.9 |
|       | 5     | 2018-03-04 21:30:19 | 12.9 |
|       | 6     | 2018-03-04 21:31:19 | 14.2 |
| 6     | 10    | 2018-03-04 21:35:19 | 14.8 |
|       | 11    | 2018-03-04 21:36:19 | 13.7 |
|       | 12    | 2018-03-04 21:37:19 | 11.0 |
+-------+-------+---------------------+------+

s1 = new_df.groupby('block').date.transform(lambda x: x.max()-x.min()).dt.seconds
new_df[s1>60]