Dataframe Pyspark数据帧比较
我有两个具有相同列数的Spark数据帧 DF1: DF2: 我想比较这两个数据帧,并写入DF2中的记录,而不是DF1中的记录 预期产出:Dataframe Pyspark数据帧比较,dataframe,apache-spark,pyspark,compare,Dataframe,Apache Spark,Pyspark,Compare,我有两个具有相同列数的Spark数据帧 DF1: DF2: 我想比较这两个数据帧,并写入DF2中的记录,而不是DF1中的记录 预期产出: ID KEY 1 A 4 D 5 E 5 E 使用.exceptAll函数 `例如: 使用.exceptAll函数 `例如: ID KEY 1 A 1 A 1 A 2 B 3 C 3 C 4 D 5 E 5 E ID KEY 1
ID KEY
1 A
4 D
5 E
5 E
使用.exceptAll函数
`例如:
使用.exceptAll函数
`例如:
ID KEY
1 A
1 A
1 A
2 B
3 C
3 C
4 D
5 E
5 E
ID KEY
1 A
4 D
5 E
5 E
df1.show()
#+---+---+
#| ID|KEY|
#+---+---+
#| 1| A|
#| 1| A|
#| 2| B|
#| 3| c|
#| 3| c|
#+---+---+
df2.show()
#+---+---+
#| ID|KEY|
#+---+---+
#| 1| A|
#| 1| A|
#| 1| A|
#| 2| B|
#| 3| c|
#| 3| c|
#| 4| D|
#| 5| E|
#| 5| E|
#+---+---+
df2.exceptAll(df1).orderBy("ID").show()
#+---+---+
#| ID|KEY|
#+---+---+
#| 1| A|
#| 4| D|
#| 5| E|
#| 5| E|
#+---+---+