如何在Pyspark中将两个数据集合并为一个
假设我们有两个数据集: 数据集1:如何在Pyspark中将两个数据集合并为一个,pyspark,Pyspark,假设我们有两个数据集: 数据集1: id name 1 James 2 Tom 数据集2: id name 1 Bond 2 Jerry 我想要以下格式的数据集3 数据集3: id name 1 James 2 Tom 3 Bond 4 Jerry 提前谢谢 相当简单 df3=df1.union(df2)可能重复的
id name
1 James
2 Tom
数据集2:
id name
1 Bond
2 Jerry
我想要以下格式的数据集3
数据集3:
id name
1 James
2 Tom
3 Bond
4 Jerry
提前谢谢 相当简单
df3=df1.union(df2)
可能重复的