Dataframe 根据基于另一个数据帧的值在pyspark数据帧中创建列

Dataframe 根据基于另一个数据帧的值在pyspark数据帧中创建列,dataframe,pyspark,google-cloud-dataproc,Dataframe,Pyspark,Google Cloud Dataproc,我有两个Pypark数据帧 df1: df2: 我想向df1添加一个列位置\u Id,从df2获取匹配Id,如下所示: person_id Name serialNo Maritalstatus Location_name Location_Id 01 abc 10 M America USA 02 xyz 13 S London

我有两个Pypark数据帧

df1:

df2:

我想向df1添加一个列位置\u Id,从df2获取匹配Id,如下所示:

person_id   Name  serialNo  Maritalstatus  Location_name   Location_Id

 01         abc      10        M              America        USA
 02         xyz      13        S              London         UK 
 03         def      14        M              Europe         EU
 04         qwe      15        M              Australia      AUS
 05         asd      16        M              Europe         EU
 06         fgh      17        M              London         UK
 07         aka      18        M              Australia      AUS
 08         fgi      19        M              London         UK
 09         aba      20        M              Australia      AUS

我如何才能做到这一点?

只需在位置\u名称上加入即可

df1.join(df2, on='Location_name')

你试过什么?这只是一个简单的连接。
df1.join(df2,on='Location\u Id')。drop('code')
person_id   Name  serialNo  Maritalstatus  Location_name   Location_Id

 01         abc      10        M              America        USA
 02         xyz      13        S              London         UK 
 03         def      14        M              Europe         EU
 04         qwe      15        M              Australia      AUS
 05         asd      16        M              Europe         EU
 06         fgh      17        M              London         UK
 07         aka      18        M              Australia      AUS
 08         fgi      19        M              London         UK
 09         aba      20        M              Australia      AUS
df1.join(df2, on='Location_name')