两个数据帧之间的聚集和差异-Pyspark

两个数据帧之间的聚集和差异-Pyspark,pyspark,apache-spark-sql,pyspark-sql,Pyspark,Apache Spark Sql,Pyspark Sql,我的数据框如下所示 DF1: DF2: 我需要为Value(column)计算两个数据帧之间的差异 我正在使用“coalesce”函数来获取ID ID值 abc 200 xyz 300 对于DF2也是如此 需要以下方面的帮助: 1) 更改/添加可能包含合并函数结果的列名 尝试以下代码:不工作,它给我空值 df1.select(coalesce(df1["A"],df1["B"]).alias("ID")) 我还想显示为 ID,值 abc 200 2) 如何基于ID连接这两个数据帧,然后在同一个

我的数据框如下所示

DF1:

DF2:

我需要为Value(column)计算两个数据帧之间的差异 我正在使用“coalesce”函数来获取ID

ID值 abc 200 xyz 300

对于DF2也是如此

需要以下方面的帮助: 1) 更改/添加可能包含合并函数结果的列名 尝试以下代码:不工作,它给我空值

df1.select(coalesce(df1["A"],df1["B"]).alias("ID"))
我还想显示为 ID,值 abc 200

2) 如何基于ID连接这两个数据帧,然后在同一个查询中减去值,并将ID显示为ID,将difference显示为名为“diff”的新列


您能否共享预期的输出数据FrameDF1=df1.withColumn(“ID”、合并(df1[“A”]、df1[“B”]),并读取加入预期输出的文档
A    B    Value
abc   0    400
0     xyz    500
df1.select(coalesce(df1["A"],df1["B"]).alias("ID"))
Expected OUtput:

ID    Value
abc   200
xyz   200