Python 使用isin（）确定应打印的内容_Python_Pandas_Numpy

Python 使用isin（）确定应打印的内容

python pandas numpy

Python 使用isin（）确定应打印的内容,python,pandas,numpy,Python,Pandas,Numpy,现在我有两个数据帧（data1和data2）我想根据ID是否同时存在于data2和data1中，在dataframe中打印一列名为data1的字符串值我现在所做的是给我一个布尔列表（True或False，如果ID存在于两个数据帧中，但不存在于字符串列中）屈服 0 True 1 True 2 True 3 True 4 True 5 True 任何想法都将不胜感激下面是数据1的一个示例 “用户id”、“id”、“等级”、“uni

现在我有两个数据帧（

data1

和

data2

）

我想根据ID是否同时存在于data2和data1中，在dataframe中打印一列名为data1的字符串值

我现在所做的是给我一个布尔列表（

True

或

False

，如果ID存在于两个数据帧中，但不存在于字符串列中）

屈服

0      True
1      True
2      True
3      True
4      True
5      True

任何想法都将不胜感激

下面是数据1的一个示例

“用户id”、“id”、“等级”、“unix时间戳”

196 242 3   881250949
186 302 3   891717742
22  377 1   878887116

数据2包含如下内容

“id”、“标题”、“发布日期”， “视频发布日期”、“imdb url”

37|Nadja (1994)|01-Jan-1994||http://us.imdb.com/M/title-exact?Nadja%20(1994)|0|0|0|0|0|0|0|0|1|0|0|0|0|0|0|0|0|0|0
38|Net, The (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Net,%20The%20(1995)|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|1|1|0|0
39|Strange Days (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Strange%20Days%20(1995)|0|1|0|0|0|0|1|0|0|0|0|0|0|0|0|1|0|0|0

可以计算两列的集合交点-

ids = set(data1['id']).intersection(data2['id'])

或者

接下来，查询/筛选出相关行

data1.loc[data1['id'].isin(ids), 'id']

如果

id

s的所有值都是唯一的：

我想你需要与

内部加入。对于data2
仅选择id
列，应忽略on
参数，因为在所有列上连接-此处仅为id
：
df = pd.merge(data1, data2[['id']])

样本：
data1 = pd.DataFrame({'id':list('abcdef'),
                      'B':[4,5,4,5,5,4],
                      'C':[7,8,9,4,2,3]})

print (data1)
   B  C id
0  4  7  a
1  5  8  b
2  4  9  c
3  5  4  d
4  5  2  e
5  4  3  f

data2 = pd.DataFrame({'id':list('frcdeg'),
                      'D':[1,3,5,7,1,0],
                      'E':[5,3,6,9,2,4],})

print (data2)
   D  E id
0  1  5  f
1  3  3  r
2  5  6  c
3  7  9  d
4  1  2  e
5  0  4  g

df = pd.merge(data1, data2[['id']])
print (df)
   B  C id
0  4  9  c
1  5  4  d
2  5  2  e
3  4  3  f

data1 = pd.DataFrame({'id':list('abcdef'),
                      'B':[4,5,4,5,5,4],
                      'C':[7,8,9,4,2,3]})

print (data1)
   B  C id
0  4  7  a
1  5  8  b
2  4  9  c
3  5  4  d
4  5  2  e
5  4  3  f

data2 = pd.DataFrame({'id':list('fecdef'),
                      'D':[1,3,5,7,1,0],
                      'E':[5,3,6,9,2,4],})

print (data2)
   D  E id
0  1  5  f
1  3  3  e
2  5  6  c
3  7  9  d
4  1  2  e
5  0  4  f

df = data1[data1['id'].isin(set(data1['id']) & set(data2['id']))]
print (df)
   B  C id
2  4  9  c
3  5  4  d
4  5  2  e
5  4  3  f

如果id
在一个或另一个Dataframe
中重复，请使用另一个答案，并添加类似的解决方案：
df = data1[data1['id'].isin(set(data1['id']) & set(data2['id']))]



样本：
data1 = pd.DataFrame({'id':list('abcdef'),
                      'B':[4,5,4,5,5,4],
                      'C':[7,8,9,4,2,3]})

print (data1)
   B  C id
0  4  7  a
1  5  8  b
2  4  9  c
3  5  4  d
4  5  2  e
5  4  3  f

data2 = pd.DataFrame({'id':list('frcdeg'),
                      'D':[1,3,5,7,1,0],
                      'E':[5,3,6,9,2,4],})

print (data2)
   D  E id
0  1  5  f
1  3  3  r
2  5  6  c
3  7  9  d
4  1  2  e
5  0  4  g

df = pd.merge(data1, data2[['id']])
print (df)
   B  C id
0  4  9  c
1  5  4  d
2  5  2  e
3  4  3  f

data1 = pd.DataFrame({'id':list('abcdef'),
                      'B':[4,5,4,5,5,4],
                      'C':[7,8,9,4,2,3]})

print (data1)
   B  C id
0  4  7  a
1  5  8  b
2  4  9  c
3  5  4  d
4  5  2  e
5  4  3  f

data2 = pd.DataFrame({'id':list('fecdef'),
                      'D':[1,3,5,7,1,0],
                      'E':[5,3,6,9,2,4],})

print (data2)
   D  E id
0  1  5  f
1  3  3  e
2  5  6  c
3  7  9  d
4  1  2  e
5  0  4  f

df = data1[data1['id'].isin(set(data1['id']) & set(data2['id']))]
print (df)
   B  C id
2  4  9  c
3  5  4  d
4  5  2  e
5  4  3  f

编辑：
您可以使用：
df = data2.loc[data1['id'].isin(set(data1['id']) & set(data2['id'])), ['title']]

ids = set(data1['id']) & set(data2['id'])
df = data2.query('id in @ids')[['title']]

df = data2.loc[np.in1d(data1['id'], np.intersect1d(data1['id'], data2['id'])), ['title']]

你能给我们看一下data1和data2中的一些数据吗？您到底想要打印什么？两个数据帧中的id列是否唯一？或者在第一个数据帧或第二个数据帧中是唯一的？或者没人知道？我想根据ID是否存在于我正在处理的任何数据帧/数据集中来打印data2的第二列。（data2的第1列是ID，data1的第2列也是ID）@jezrael它们不是唯一的ID'sOK，因此请检查下面编辑的答案-我添加了3种可能的解决方案。因此查询/筛选相关行可能包括data1中的字符串？@JonathanHermans抱歉，我不理解您的问题。由于set.intersection，它将始终在数据1中包含字符串。
data1 = pd.DataFrame({'id':list('abcdef'),
                      'B':[4,5,4,5,5,4],
                      'C':[7,8,9,4,2,3]})

print (data1)
   B  C id
0  4  7  a
1  5  8  b
2  4  9  c
3  5  4  d
4  5  2  e
5  4  3  f

data2 = pd.DataFrame({'id':list('fecdef'),
                      'D':[1,3,5,7,1,0],
                      'E':[5,3,6,9,2,4],})

print (data2)
   D  E id
0  1  5  f
1  3  3  e
2  5  6  c
3  7  9  d
4  1  2  e
5  0  4  f

df = data1[data1['id'].isin(set(data1['id']) & set(data2['id']))]
print (df)
   B  C id
2  4  9  c
3  5  4  d
4  5  2  e
5  4  3  f

df = data2.loc[data1['id'].isin(set(data1['id']) & set(data2['id'])), ['title']]

ids = set(data1['id']) & set(data2['id'])
df = data2.query('id in @ids')[['title']]

df = data2.loc[np.in1d(data1['id'], np.intersect1d(data1['id'], data2['id'])), ['title']]