两个数据帧之间的聚集和差异-Pyspark_Pyspark_Apache Spark Sql_Pyspark Sql

两个数据帧之间的聚集和差异-Pyspark

pyspark

两个数据帧之间的聚集和差异-Pyspark,pyspark,apache-spark-sql,pyspark-sql,Pyspark,Apache Spark Sql,Pyspark Sql,我的数据框如下所示 DF1： DF2：我需要为Value（column）计算两个数据帧之间的差异我正在使用“coalesce”函数来获取ID ID值 abc 200 xyz 300 对于DF2也是如此需要以下方面的帮助： 1）更改/添加可能包含合并函数结果的列名尝试以下代码：不工作，它给我空值 df1.select(coalesce(df1["A"],df1["B"]).alias("ID")) 我还想显示为 ID，值 abc 200 2）如何基于ID连接这两个数据帧，然后在同一个

我的数据框如下所示

DF1：

DF2：

我需要为Value（column）计算两个数据帧之间的差异我正在使用“coalesce”函数来获取ID

ID值 abc 200 xyz 300

对于DF2也是如此

需要以下方面的帮助： 1）更改/添加可能包含合并函数结果的列名尝试以下代码：不工作，它给我空值

df1.select(coalesce(df1["A"],df1["B"]).alias("ID"))

我还想显示为 ID，值 abc 200

2）如何基于ID连接这两个数据帧，然后在同一个查询中减去值，并将ID显示为ID，将difference显示为名为“diff”的新列

您能否共享预期的输出数据FrameDF1=df1.withColumn（“ID”、合并（df1[“A”]、df1[“B”]），并读取加入预期输出的文档

A    B    Value
abc   0    400
0     xyz    500

df1.select(coalesce(df1["A"],df1["B"]).alias("ID"))

Expected OUtput:

ID    Value
abc   200
xyz   200