Python 如何筛选数据框中的行，其中列的值等于列表的某个值_Python_Pandas_Dataframe_Pandas Groupby

Python 如何筛选数据框中的行，其中列的值等于列表的某个值

python pandas dataframe

Python 如何筛选数据框中的行，其中列的值等于列表的某个值,python,pandas,dataframe,pandas-groupby,Python,Pandas,Dataframe,Pandas Groupby,我有一个数据框，有两列：一列表示ID\u编号，一列表示week\u编号。它可以是这样的： df1 = pd.DataFrame({'ID_number':[13, 13, 14, 14, 14, 15, 15,16], 'week_number':[1, 2, 1, 2, 3, 1, 4, 5]}) # ID_number week_number #0 13 1 #1 13 2 #2 14 1 #3 14 2 #4 14 3 #5 15 1 #6 15 4

我有一个数据框，有两列：一列表示ID\u编号，一列表示week\u编号。它可以是这样的：

df1 = pd.DataFrame({'ID_number':[13, 13, 14, 14, 14, 15, 15,16], 'week_number':[1, 2, 1, 2, 3, 1, 4, 5]})

#   ID_number   week_number
#0  13  1
#1  13  2
#2  14  1
#3  14  2
#4  14  3
#5  15  1
#6  15  4
#7  16  5

我想为每个不同的ID选择，那些周值为2和3的ID，然后为数据创建一个标签。如果一个ID没有第2周和第3周，我会将其标记为1。否则，我会将其标记为0

目前，我提出了一个相当不优雅的解决方案，这是可行的，但我相信一定有另一种方法：

def check_courier_week(df, field, weeks):
    weeks_not_provided = weeks
    new_df = df
    new_df['label'] = np.zeros(len(df))
    for c in np.unique(df[field]):
        tmp = df[df[field] == c]
        if len(np.unique(tmp.week_number.isin(weeks_not_provided))) == 1 and np.unique(np.unique(tmp.week_number.isin(weeks_not_provided))) == False:
            new_df['label'][df[field] == c] = 1
        else:
            new_df['label'][df[field] == c] = 0
    return new_df

有没有关于如何改进的想法？我想可能有一个使用groupby的解决方案，但我不知道如何实现它

结果标签应该是：

#   ID_number   week_number     label
#0  13  1   0.0
#1  13  2   0.0
#2  14  1   0.0
#3  14  2   0.0
#4  14  3   0.0
#5  15  1   1.0
#6  15  4   1.0
#7  16  5   1.0

谢谢

使用

groupby

和

transform

any

(~(df1['week_number'].isin([2,3])).groupby(df1['ID_number']).transform('any')).astype(int)
Out[39]: 
0    0
1    0
2    0
3    0
4    0
5    1
6    1
7    1
Name: week_number, dtype: int32

回答如何使用groupby：您可以按ID_编号进行分组，然后以这种方式找到标签，即：

df1['label'] = np.zeros(len(df))
grouped_table = df1.groupby('ID_number')
groups = list(set(df1['ID_number']))
for group in groups:
    test_list = list(set(grouped_table.getgroup(group)))
    if (2 in test_list) & (3 in test_list):
        df1.loc[df1['ID_number'] == group]['label'] = 0  
    else:
        df1.loc[df1['ID_number'] == group]['label'] = 1

使用和不使用分组：

unique = df1.loc[df1['week_number'].isin([2,3]), 'ID_number'].unique()
df['label'] = np.where(df1['ID_number'].isin(unique), 0, 1)

或：

虽然效率不高，但您可以通过以下方式利用

set

操作：

使用groupby，然后可以使用每组周数的最小值和最大值来确定标签的值

df['label'] = (~df1['ID_number'].isin(unique)).astype(int)

print(df)
   ID_number  week_number  label
0         13            1      0
1         13            2      0
2         14            1      0
3         14            2      0
4         14            3      0
5         15            1      1
6         15            4      1
7         16            5      1

def checker(x):
    return set(x).isdisjoint({2, 3})

df1['flag'] = df1.groupby('ID_number')['week_number'].transform(checker)

print(df1)

   ID_number  week_number  flag
0         13            1     0
1         13            2     0
2         14            1     0
3         14            2     0
4         14            3     0
5         15            1     1
6         15            4     1
7         16            5     1