Dataframe Pyspark数据帧比较

Dataframe Pyspark数据帧比较,dataframe,apache-spark,pyspark,compare,Dataframe,Apache Spark,Pyspark,Compare,我有两个具有相同列数的Spark数据帧 DF1: DF2: 我想比较这两个数据帧,并写入DF2中的记录,而不是DF1中的记录 预期产出: ID KEY 1 A 4 D 5 E 5 E 使用.exceptAll函数 `例如: 使用.exceptAll函数 `例如: ID KEY 1 A 1 A 1 A 2 B 3 C 3 C 4 D 5 E 5 E ID KEY 1

我有两个具有相同列数的Spark数据帧

DF1:

DF2:

我想比较这两个数据帧,并写入DF2中的记录,而不是DF1中的记录

预期产出:

ID    KEY
1     A
4     D
5     E
5     E 
使用.exceptAll函数

`例如:

使用.exceptAll函数

`例如:

ID    KEY
1     A
1     A
1     A
2     B
3     C
3     C
4     D
5     E
5     E   
ID    KEY
1     A
4     D
5     E
5     E 
df1.show()
#+---+---+
#| ID|KEY|
#+---+---+
#|  1|  A|
#|  1|  A|
#|  2|  B|
#|  3|  c|
#|  3|  c|
#+---+---+

df2.show()
#+---+---+
#| ID|KEY|
#+---+---+
#|  1|  A|
#|  1|  A|
#|  1|  A|
#|  2|  B|
#|  3|  c|
#|  3|  c|
#|  4|  D|
#|  5|  E|
#|  5|  E|
#+---+---+

df2.exceptAll(df1).orderBy("ID").show()
#+---+---+
#| ID|KEY|
#+---+---+
#|  1|  A|
#|  4|  D|
#|  5|  E|
#|  5|  E|
#+---+---+