Python 删除数据帧中具有N个或多个连续NaN的所有行_Python_Pandas_Dataframe

Python 删除数据帧中具有N个或多个连续NaN的所有行

python pandas dataframe

Python 删除数据帧中具有N个或多个连续NaN的所有行,python,pandas,dataframe,Python,Pandas,Dataframe,这个问题的推论：我想删除第4列（d）中存在NaN的所有行3次或更多次。输出应为： a b c d e 2018-05-25 0.000381 0.264318 land 2018-05-25 2018-05-26 0.000000 0.264447 land 2018-05-26 2018-05-30 0.000000 0.266066 land 2018-05-

这个问题的推论：

我想删除第4列（

）中存在NaN的所有行3次或更多次。输出应为：

         a         b         c     d           e
2018-05-25  0.000381  0.264318     land    2018-05-25
2018-05-26  0.000000  0.264447     land    2018-05-26
2018-05-30  0.000000  0.266066     land    2018-05-30
2018-05-31  0.000000  0.266150     NaN           NaT
2018-06-01  0.000000  0.265816     NaN           NaT
2018-06-02  0.000000  0.264892     land    2018-06-02
2018-06-03  0.000000  0.263191     NaN           NaT
2018-06-04  0.000000  0.260508     land    2018-06-04
2018-06-09  0.000000  0.223932     land    2018-06-09

从这个问题开始，我尝试了以下方法：

    threshold = 3
    mask = df.d.notna()
    df.loc[(~mask).groupby(mask.cumsum()).transform('cumsum') < threshold, 'c'] = np.nan
    df = df[np.isfinite(df['c'])]

threshold=3
掩码=df.d.notna（）
df.loc[（~mask）.groupby（mask.cumsum（））.transform（'cumsum'）


但它不起作用
这应该起作用：
df = df.groupby(pd.notnull(df.d).cumsum()).apply(lambda x: x.dropna() if pd.isnull(x.d).sum() >= 3 else x).reset_index(drop=True)

输出：
            a         b         c     d           e
0  2018-05-25  0.000381  0.264318  land  2018-05-25
1  2018-05-26  0.000000  0.264447  land  2018-05-26
2  2018-05-30  0.000000  0.266066  land  2018-05-30
3  2018-05-31  0.000000  0.266150   NaN         NaT
4  2018-06-01  0.000000  0.265816   NaN         NaT
5  2018-06-02  0.000000  0.264892  land  2018-06-02
6  2018-06-03  0.000000  0.263191   NaN         NaT
7  2018-06-04  0.000000  0.260508  land  2018-06-04
8  2018-06-09  0.000000  0.223932  land  2018-06-09

             a         b         c     d           e  seq
0   2018-05-25  0.000381  0.264318  land  2018-05-25    1
1   2018-05-26  0.000000  0.264447  land  2018-05-26    4
5   2018-05-30  0.000000  0.266066  land  2018-05-30    3
6   2018-05-31  0.000000  0.266150   NaN         NaN    3
7   2018-06-01  0.000000  0.265816   NaN         NaN    3
8   2018-06-02  0.000000  0.264892  land  2018-06-02    2
9   2018-06-03  0.000000  0.263191   NaN         NaN    2
10  2018-06-04  0.000000  0.260508  land  2018-06-04    5
15  2018-06-09  0.000000  0.223932  land  2018-06-09    1

解决这个问题的一个办法,
df['seq'] = df.groupby(df['d'].notnull().cumsum())['a'].transform(len)
df=df[(df['seq']<4)|df['d'].notnull()]

按连续值和大小创建帮助程序系列
a，最后一个筛选依据：

首先，请包括您的回溯。第二，你想删除的组是否有一些共同的价值？你能添加detail@jezrael吗
             a         b         c     d           e  seq
0   2018-05-25  0.000381  0.264318  land  2018-05-25    1
1   2018-05-26  0.000000  0.264447  land  2018-05-26    4
5   2018-05-30  0.000000  0.266066  land  2018-05-30    3
6   2018-05-31  0.000000  0.266150   NaN         NaN    3
7   2018-06-01  0.000000  0.265816   NaN         NaN    3
8   2018-06-02  0.000000  0.264892  land  2018-06-02    2
9   2018-06-03  0.000000  0.263191   NaN         NaN    2
10  2018-06-04  0.000000  0.260508  land  2018-06-04    5
15  2018-06-09  0.000000  0.223932  land  2018-06-09    1

mask = df.d.notna()
a = mask.ne(mask.shift()).cumsum()

df = df[(a.groupby(a).transform('size') < 3) | mask]
print (df)
             a         b         c     d           e
0   2018-05-25  0.000381  0.264318  land  2018-05-25
1   2018-05-26  0.000000  0.264447  land  2018-05-26
5   2018-05-30  0.000000  0.266066  land  2018-05-30
6   2018-05-31  0.000000  0.266150   NaN         NaT
7   2018-06-01  0.000000  0.265816   NaN         NaT
8   2018-06-02  0.000000  0.264892  land  2018-06-02
9   2018-06-03  0.000000  0.263191   NaN         NaT
10  2018-06-04  0.000000  0.260508  land  2018-06-04
15  2018-06-09  0.000000  0.223932  land  2018-06-09

print (a)
0     1
1     1
2     2
3     2
4     2
5     3
6     4
7     4
8     5
9     6
10    7
11    8
12    8
13    8
14    8
15    9
Name: d, dtype: int32

print (a.groupby(a).transform('size'))
0     2
1     2
2     3
3     3
4     3
5     1
6     2
7     2
8     1
9     1
10    1
11    4
12    4
13    4
14    4
15    1
Name: d, dtype: int64