使用pyspark查找表并从另一个表中获取列
我有以下两个spark数据帧,如下所示 df1---> df2-----> 预期输出--->使用pyspark查找表并从另一个表中获取列,pyspark,lookup,using,Pyspark,Lookup,Using,我有以下两个spark数据帧,如下所示 df1---> df2-----> 预期输出---> 是否有人可以建议使用pyspark在ID上左连接来获得预期输出的解决方案: df1.join(df2, ['ID'], 'left').drop('col4').show() +---+----+----+----+ | ID|col1|col2|col3| +---+----+----+----+ |001| abd| xyz|acc1| |002| eny| opl|acc1| |001| uyh|
是否有人可以建议使用pyspark在
ID
上左连接来获得预期输出的解决方案:
df1.join(df2, ['ID'], 'left').drop('col4').show()
+---+----+----+----+
| ID|col1|col2|col3|
+---+----+----+----+
|001| abd| xyz|acc1|
|002| eny| opl|acc1|
|001| uyh| ikl|acc1|
|003| ewr| uji|acc2|
|002| opl| rtn|acc1|
|001| jnu| wbg|acc1|
+---+----+----+----+
ID col3 col4
-------------
001 acc1 jbo
002 acc1 unk
003 acc2 plo
004 acc3 edf
005 acc2 tgn
006 acc1 jhu
ID col1 col2 col3
---------------
001 abd xyz acc1
002 eny opl acc1
001 uyh ikl acc1
003 ewr uji acc3
002 opl rtn acc1
001 jnu wbg acc1
df1.join(df2, ['ID'], 'left').drop('col4').show()
+---+----+----+----+
| ID|col1|col2|col3|
+---+----+----+----+
|001| abd| xyz|acc1|
|002| eny| opl|acc1|
|001| uyh| ikl|acc1|
|003| ewr| uji|acc2|
|002| opl| rtn|acc1|
|001| jnu| wbg|acc1|
+---+----+----+----+