Python 熊猫:如何通过保留第一个数据帧的信息来合并一列上的两个数据帧?
我有两个数据帧Python 熊猫:如何通过保留第一个数据帧的信息来合并一列上的两个数据帧?,python,pandas,dataframe,Python,Pandas,Dataframe,我有两个数据帧df1和df2df1包含人的年龄信息,而df2包含人的性别信息。并非所有人都在df1或df2 df1 Name Age 0 Tom 34 1 Sara 18 2 Eva 44 3 Jack 27 4 Laura 30 df2 Name Sex 0 Tom M 1 Paul M 2 Eva F 3 Jack
df1
和df2
df1
包含人的年龄信息,而df2
包含人的性别信息。并非所有人都在df1
或df2
df1
Name Age
0 Tom 34
1 Sara 18
2 Eva 44
3 Jack 27
4 Laura 30
df2
Name Sex
0 Tom M
1 Paul M
2 Eva F
3 Jack M
4 Michelle F
如果我在df2
中没有此信息,我想在df1
和设置NaN
中获得人员的性别信息。我试图进行df1=pd.merge(df1,df2,on='Name',how='outer')
但是我在df2
中保留了一些我不想要的人的信息
df1
Name Age Sex
0 Tom 34 M
1 Sara 18 NaN
2 Eva 44 F
3 Jack 27 M
4 Laura 30 NaN
示例
:
df1 = pd.DataFrame({'Name': ['Tom', 'Sara', 'Eva', 'Jack', 'Laura'],
'Age': [34, 18, 44, 27, 30]})
#print (df1)
df3 = df1.copy()
df2 = pd.DataFrame({'Name': ['Tom', 'Paul', 'Eva', 'Jack', 'Michelle'],
'Sex': ['M', 'M', 'F', 'M', 'F']})
#print (df2)
由系列使用
创建人:
具有左连接的替代解决方案:
df = df3.merge(df2[['Name','Sex']], on='Name', how='left')
print (df)
Name Age Sex
0 Tom 34 M
1 Sara 18 NaN
2 Eva 44 F
3 Jack 27 M
4 Laura 30 NaN
df1 = pd.DataFrame({'Name': ['Tom', 'Sara', 'Eva', 'Jack', 'Laura'],
'Year':[2000,2003,2003,2004,2007],
'Code':[1,2,3,4,4],
'Age': [34, 18, 44, 27, 30]})
print (df1)
Name Year Code Age
0 Tom 2000 1 34
1 Sara 2003 2 18
2 Eva 2003 3 44
3 Jack 2004 4 27
4 Laura 2007 4 30
df2 = pd.DataFrame({'Name': ['Tom', 'Paul', 'Eva', 'Jack', 'Michelle'],
'Sex': ['M', 'M', 'F', 'M', 'F'],
'Year':[2001,2003,2003,2004,2007],
'Code':[1,2,3,5,3],
'Val':[21,34,23,44,67]})
print (df2)
Name Sex Year Code Val
0 Tom M 2001 1 21
1 Paul M 2003 2 34
2 Eva F 2003 3 23
3 Jack M 2004 5 44
4 Michelle F 2007 3 67
如果需要多列映射(例如,
Year
和code
),则需要merge
与左连接:
df = df3.merge(df2[['Name','Sex']], on='Name', how='left')
print (df)
Name Age Sex
0 Tom 34 M
1 Sara 18 NaN
2 Eva 44 F
3 Jack 27 M
4 Laura 30 NaN
df1 = pd.DataFrame({'Name': ['Tom', 'Sara', 'Eva', 'Jack', 'Laura'],
'Year':[2000,2003,2003,2004,2007],
'Code':[1,2,3,4,4],
'Age': [34, 18, 44, 27, 30]})
print (df1)
Name Year Code Age
0 Tom 2000 1 34
1 Sara 2003 2 18
2 Eva 2003 3 44
3 Jack 2004 4 27
4 Laura 2007 4 30
df2 = pd.DataFrame({'Name': ['Tom', 'Paul', 'Eva', 'Jack', 'Michelle'],
'Sex': ['M', 'M', 'F', 'M', 'F'],
'Year':[2001,2003,2003,2004,2007],
'Code':[1,2,3,5,3],
'Val':[21,34,23,44,67]})
print (df2)
Name Sex Year Code Val
0 Tom M 2001 1 21
1 Paul M 2003 2 34
2 Eva F 2003 3 23
3 Jack M 2004 5 44
4 Michelle F 2007 3 67
如果使用
map
获取错误,则表示连接列重复,此处Name
:
df1 = pd.DataFrame({'Name': ['Tom', 'Sara', 'Eva', 'Jack', 'Laura'],
'Age': [34, 18, 44, 27, 30]})
print (df1)
Name Age
0 Tom 34
1 Sara 18
2 Eva 44
3 Jack 27
4 Laura 30
df3, df4 = df1.copy(), df1.copy()
df2 = pd.DataFrame({'Name': ['Tom', 'Tom', 'Eva', 'Jack', 'Michelle'],
'Val': [1,2,3,4,5]})
print (df2)
Name Val
0 Tom 1 <-duplicated name Tom
1 Tom 2 <-duplicated name Tom
2 Eva 3
3 Jack 4
4 Michelle 5
s = df2.set_index('Name')['Val']
df1['New'] = df1['Name'].map(s)
print (df1)
您还可以使用
join
方法:
df1.set_index("Name").join(df2.set_index("Name"), how="left")
编辑:添加了
set_index(“Name”)
对@jezrael answer的简单添加,用于从数据帧创建字典
这可能会有帮助
Python:
df1 = pd.DataFrame({'Name': ['Tom', 'Sara', 'Eva', 'Jack', 'Laura'],
'Age': [34, 18, 44, 27, 30]})
df2 = pd.DataFrame({'Name': ['Tom', 'Paul', 'Eva', 'Paul', 'Jack', 'Michelle', 'Tom'],
'Something': ['M', 'M', 'F', 'M', 'A', 'F', 'B']})
df1_dict = pd.Series(df1.Age.values, index=df1.Name).to_dict()
df2['Age'] = df2['Name'].map(df1_dict)
print(df2)
输出:
Name Something Age
0 Tom M 34.0
1 Paul M NaN
2 Eva F 44.0
3 Paul M NaN
4 Jack A 27.0
5 Michelle F NaN
6 Tom B 34.0
您好,当第二个数据帧的行数不同时,如何使用
df1['Sex']=df1['Name'].map(df2.set_index('Name')['Sex'])
?我在我的数据集上使用它,我只收到第一行的结果,thanks@sygneto-它应该工作,值匹配吗?什么返回值print(df1['Sex'].unique())
vsprint(df2['Sex'].unique())
?或者在映射之前删除此列?@sygneto-我不容易看到问题,因为无法看到您的数据:(我想原因是因为我在两个数据帧中都有['sex']列,所以如何替换它或追加它?
df1.set_index("Name").join(df2.set_index("Name"), how="left")
df1 = pd.DataFrame({'Name': ['Tom', 'Sara', 'Eva', 'Jack', 'Laura'],
'Age': [34, 18, 44, 27, 30]})
df2 = pd.DataFrame({'Name': ['Tom', 'Paul', 'Eva', 'Paul', 'Jack', 'Michelle', 'Tom'],
'Something': ['M', 'M', 'F', 'M', 'A', 'F', 'B']})
df1_dict = pd.Series(df1.Age.values, index=df1.Name).to_dict()
df2['Age'] = df2['Name'].map(df1_dict)
print(df2)
Name Something Age
0 Tom M 34.0
1 Paul M NaN
2 Eva F 44.0
3 Paul M NaN
4 Jack A 27.0
5 Michelle F NaN
6 Tom B 34.0