Dataframe 根据基于另一个数据帧的值在pyspark数据帧中创建列
我有两个Pypark数据帧 df1: df2: 我想向df1添加一个列位置\u Id,从df2获取匹配Id,如下所示:Dataframe 根据基于另一个数据帧的值在pyspark数据帧中创建列,dataframe,pyspark,google-cloud-dataproc,Dataframe,Pyspark,Google Cloud Dataproc,我有两个Pypark数据帧 df1: df2: 我想向df1添加一个列位置\u Id,从df2获取匹配Id,如下所示: person_id Name serialNo Maritalstatus Location_name Location_Id 01 abc 10 M America USA 02 xyz 13 S London
person_id Name serialNo Maritalstatus Location_name Location_Id
01 abc 10 M America USA
02 xyz 13 S London UK
03 def 14 M Europe EU
04 qwe 15 M Australia AUS
05 asd 16 M Europe EU
06 fgh 17 M London UK
07 aka 18 M Australia AUS
08 fgi 19 M London UK
09 aba 20 M Australia AUS
我如何才能做到这一点?只需在位置\u名称上加入即可
df1.join(df2, on='Location_name')
你试过什么?这只是一个简单的连接。
df1.join(df2,on='Location\u Id')。drop('code')
?
person_id Name serialNo Maritalstatus Location_name Location_Id
01 abc 10 M America USA
02 xyz 13 S London UK
03 def 14 M Europe EU
04 qwe 15 M Australia AUS
05 asd 16 M Europe EU
06 fgh 17 M London UK
07 aka 18 M Australia AUS
08 fgi 19 M London UK
09 aba 20 M Australia AUS
df1.join(df2, on='Location_name')