Python 标记一列中的ID首次出现在另一列中的时间_Python_Pandas

Python 标记一列中的ID首次出现在另一列中的时间

python pandas

Python 标记一列中的ID首次出现在另一列中的时间,python,pandas,Python,Pandas,我有一个如下所示的数据帧： ID1 ID2 Date 1 2 01/01/2018 1 2 03/01/2018 1 2 04/05/2018 2 1 06/06/2018 1 2 08/06/2018 3 4 09/07/2018 等等我需要做的是标记ID1中的ID第一次出现在ID2中。在上面的例子中，这看起来像 ID1 ID2 Date Flag 1 2 01/01/2018 1 2 03/

我有一个如下所示的数据帧：

 ID1 ID2 Date
 1   2   01/01/2018
 1   2   03/01/2018
 1   2   04/05/2018
 2   1   06/06/2018
 1   2   08/06/2018
 3   4   09/07/2018

等等

我需要做的是标记ID1中的ID第一次出现在ID2中。在上面的例子中，这看起来像

ID1 ID2 Date         Flag
 1   2   01/01/2018
 1   2   03/01/2018
 1   2   04/05/2018
 2   1   06/06/2018
 1   2   08/06/2018  Y
 3   4   09/07/2018

我使用了以下代码来告诉我ID1是否曾经出现在ID2中：

ID2List= df['ID2'].tolist()
ID2List= list(set(IDList))  # dedupe list
df['ID1 is in ID2List'] = np.where(df[ID1].isin(ID2List), 'Yes', 'No')

但这只告诉我，ID1在某个时刻出现在ID2中，而不是第一次出现的事件

有什么帮助吗？

一个想法是使用

next

和生成器表达式来计算

ID1

中的匹配索引。然后与索引进行比较，并使用

argmax

获得第一个

True

值的索引：

idx = df.apply(lambda row: next((idx for idx, val in enumerate(df['ID1']) \
                                 if row['ID2'] == val), 0), axis=1)

df.loc[(df.index > idx).argmax(), 'Flag'] = 'Y'

print(df)

   ID1  ID2        Date Flag
0    1    2  01/01/2018  NaN
1    1    2  03/01/2018  NaN
2    1    2  04/05/2018  NaN
3    2    1  06/06/2018    Y
4    1    2  08/06/2018  NaN
5    3    4  09/07/2018  NaN

不应该在上面一行，其中

首先出现在

ID2

中吗？Graipher-是的，你是对的！