Python 使用isin()确定应打印的内容
现在我有两个数据帧(Python 使用isin()确定应打印的内容,python,pandas,numpy,Python,Pandas,Numpy,现在我有两个数据帧(data1和data2) 我想根据ID是否同时存在于data2和data1中,在dataframe中打印一列名为data1的字符串值 我现在所做的是给我一个布尔列表(True或False,如果ID存在于两个数据帧中,但不存在于字符串列中) 屈服 0 True 1 True 2 True 3 True 4 True 5 True 任何想法都将不胜感激 下面是数据1的一个示例 “用户id”、“id”、“等级”、“uni
data1
和data2
)
我想根据ID是否同时存在于data2和data1中,在dataframe中打印一列名为data1的字符串值
我现在所做的是给我一个布尔列表(True
或False
,如果ID存在于两个数据帧中,但不存在于字符串列中)
屈服
0 True
1 True
2 True
3 True
4 True
5 True
任何想法都将不胜感激
下面是数据1的一个示例
“用户id”、“id”、“等级”、“unix时间戳”
196 242 3 881250949
186 302 3 891717742
22 377 1 878887116
数据2包含如下内容
“id”、“标题”、“发布日期”,
“视频发布日期”、“imdb url”
37|Nadja (1994)|01-Jan-1994||http://us.imdb.com/M/title-exact?Nadja%20(1994)|0|0|0|0|0|0|0|0|1|0|0|0|0|0|0|0|0|0|0
38|Net, The (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Net,%20The%20(1995)|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|1|1|0|0
39|Strange Days (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Strange%20Days%20(1995)|0|1|0|0|0|0|1|0|0|0|0|0|0|0|0|1|0|0|0
可以计算两列的集合交点-
ids = set(data1['id']).intersection(data2['id'])
或者
接下来,查询/筛选出相关行
data1.loc[data1['id'].isin(ids), 'id']
如果
id
s的所有值都是唯一的:
我想你需要与内部加入。对于data2
仅选择id
列,应忽略on
参数,因为在所有列上连接-此处仅为id
:
df = pd.merge(data1, data2[['id']])
样本:
data1 = pd.DataFrame({'id':list('abcdef'),
'B':[4,5,4,5,5,4],
'C':[7,8,9,4,2,3]})
print (data1)
B C id
0 4 7 a
1 5 8 b
2 4 9 c
3 5 4 d
4 5 2 e
5 4 3 f
data2 = pd.DataFrame({'id':list('frcdeg'),
'D':[1,3,5,7,1,0],
'E':[5,3,6,9,2,4],})
print (data2)
D E id
0 1 5 f
1 3 3 r
2 5 6 c
3 7 9 d
4 1 2 e
5 0 4 g
df = pd.merge(data1, data2[['id']])
print (df)
B C id
0 4 9 c
1 5 4 d
2 5 2 e
3 4 3 f
data1 = pd.DataFrame({'id':list('abcdef'),
'B':[4,5,4,5,5,4],
'C':[7,8,9,4,2,3]})
print (data1)
B C id
0 4 7 a
1 5 8 b
2 4 9 c
3 5 4 d
4 5 2 e
5 4 3 f
data2 = pd.DataFrame({'id':list('fecdef'),
'D':[1,3,5,7,1,0],
'E':[5,3,6,9,2,4],})
print (data2)
D E id
0 1 5 f
1 3 3 e
2 5 6 c
3 7 9 d
4 1 2 e
5 0 4 f
df = data1[data1['id'].isin(set(data1['id']) & set(data2['id']))]
print (df)
B C id
2 4 9 c
3 5 4 d
4 5 2 e
5 4 3 f
如果id
在一个或另一个Dataframe
中重复,请使用另一个答案,并添加类似的解决方案:
df = data1[data1['id'].isin(set(data1['id']) & set(data2['id']))]
样本:
data1 = pd.DataFrame({'id':list('abcdef'),
'B':[4,5,4,5,5,4],
'C':[7,8,9,4,2,3]})
print (data1)
B C id
0 4 7 a
1 5 8 b
2 4 9 c
3 5 4 d
4 5 2 e
5 4 3 f
data2 = pd.DataFrame({'id':list('frcdeg'),
'D':[1,3,5,7,1,0],
'E':[5,3,6,9,2,4],})
print (data2)
D E id
0 1 5 f
1 3 3 r
2 5 6 c
3 7 9 d
4 1 2 e
5 0 4 g
df = pd.merge(data1, data2[['id']])
print (df)
B C id
0 4 9 c
1 5 4 d
2 5 2 e
3 4 3 f
data1 = pd.DataFrame({'id':list('abcdef'),
'B':[4,5,4,5,5,4],
'C':[7,8,9,4,2,3]})
print (data1)
B C id
0 4 7 a
1 5 8 b
2 4 9 c
3 5 4 d
4 5 2 e
5 4 3 f
data2 = pd.DataFrame({'id':list('fecdef'),
'D':[1,3,5,7,1,0],
'E':[5,3,6,9,2,4],})
print (data2)
D E id
0 1 5 f
1 3 3 e
2 5 6 c
3 7 9 d
4 1 2 e
5 0 4 f
df = data1[data1['id'].isin(set(data1['id']) & set(data2['id']))]
print (df)
B C id
2 4 9 c
3 5 4 d
4 5 2 e
5 4 3 f
编辑:
您可以使用:
df = data2.loc[data1['id'].isin(set(data1['id']) & set(data2['id'])), ['title']]
ids = set(data1['id']) & set(data2['id'])
df = data2.query('id in @ids')[['title']]
df = data2.loc[np.in1d(data1['id'], np.intersect1d(data1['id'], data2['id'])), ['title']]
你能给我们看一下data1和data2中的一些数据吗?您到底想要打印什么?两个数据帧中的id列是否唯一?或者在第一个数据帧或第二个数据帧中是唯一的?或者没人知道?我想根据ID是否存在于我正在处理的任何数据帧/数据集中来打印data2的第二列。(data2的第1列是ID,data1的第2列也是ID)@jezrael它们不是唯一的ID'sOK,因此请检查下面编辑的答案-我添加了3种可能的解决方案。因此查询/筛选相关行可能包括data1中的字符串?@JonathanHermans抱歉,我不理解您的问题。由于set.intersection,它将始终在数据1中包含字符串。
data1 = pd.DataFrame({'id':list('abcdef'),
'B':[4,5,4,5,5,4],
'C':[7,8,9,4,2,3]})
print (data1)
B C id
0 4 7 a
1 5 8 b
2 4 9 c
3 5 4 d
4 5 2 e
5 4 3 f
data2 = pd.DataFrame({'id':list('fecdef'),
'D':[1,3,5,7,1,0],
'E':[5,3,6,9,2,4],})
print (data2)
D E id
0 1 5 f
1 3 3 e
2 5 6 c
3 7 9 d
4 1 2 e
5 0 4 f
df = data1[data1['id'].isin(set(data1['id']) & set(data2['id']))]
print (df)
B C id
2 4 9 c
3 5 4 d
4 5 2 e
5 4 3 f
df = data2.loc[data1['id'].isin(set(data1['id']) & set(data2['id'])), ['title']]
ids = set(data1['id']) & set(data2['id'])
df = data2.query('id in @ids')[['title']]
df = data2.loc[np.in1d(data1['id'], np.intersect1d(data1['id'], data2['id'])), ['title']]