两个数据帧之间的聚集和差异-Pyspark
我的数据框如下所示 DF1: DF2: 我需要为Value(column)计算两个数据帧之间的差异 我正在使用“coalesce”函数来获取ID ID值 abc 200 xyz 300 对于DF2也是如此 需要以下方面的帮助: 1) 更改/添加可能包含合并函数结果的列名 尝试以下代码:不工作,它给我空值两个数据帧之间的聚集和差异-Pyspark,pyspark,apache-spark-sql,pyspark-sql,Pyspark,Apache Spark Sql,Pyspark Sql,我的数据框如下所示 DF1: DF2: 我需要为Value(column)计算两个数据帧之间的差异 我正在使用“coalesce”函数来获取ID ID值 abc 200 xyz 300 对于DF2也是如此 需要以下方面的帮助: 1) 更改/添加可能包含合并函数结果的列名 尝试以下代码:不工作,它给我空值 df1.select(coalesce(df1["A"],df1["B"]).alias("ID")) 我还想显示为 ID,值 abc 200 2) 如何基于ID连接这两个数据帧,然后在同一个
df1.select(coalesce(df1["A"],df1["B"]).alias("ID"))
我还想显示为
ID,值
abc 200
2) 如何基于ID连接这两个数据帧,然后在同一个查询中减去值,并将ID显示为ID,将difference显示为名为“diff”的新列
您能否共享预期的输出数据FrameDF1=df1.withColumn(“ID”、合并(df1[“A”]、df1[“B”]),并读取加入预期输出的文档
A B Value
abc 0 400
0 xyz 500
df1.select(coalesce(df1["A"],df1["B"]).alias("ID"))
Expected OUtput:
ID Value
abc 200
xyz 200