Apache spark 合并两个不同的pyspark数据帧
我有两个具有不同值的pyspark数据帧,我希望在某些条件下合并它们。下面是我所拥有的Apache spark 合并两个不同的pyspark数据帧,apache-spark,hadoop,dataframe,pyspark,apache-spark-sql,Apache Spark,Hadoop,Dataframe,Pyspark,Apache Spark Sql,我有两个具有不同值的pyspark数据帧,我希望在某些条件下合并它们。下面是我所拥有的 DF-1 date person_surname person_order_number item 2017-08-09 pearson 1 shoes 2017-08-09 zayne 3
DF-1
date person_surname person_order_number item
2017-08-09 pearson 1 shoes
2017-08-09 zayne 3 clothes
DF-2
date person_surname person_order_number person_slary
2017-08-09 pearson 2 $1000
2017-08-09 zayne 5 $2000
我想合并DF1和DF2,这样人们的姓氏匹配,并且人的顺序号合并正确。因此,我希望返回以下内容
DF_pearson
date person_surname person_order_number item salary
2017-08-09 pearson 1 shoes
2017-08-09 pearson 2 $1000
DF_Zayne
date person_surname person_order_number item salary
2017-08-09 zayne 3 clothes
2017-08-09 zayne 5 $2000
我如何做到这一点?然后,我还想对这些数据帧中的每一个执行操作。将它们合并,然后使用姓氏过滤到数据帧中。幸运的是,我的主数据帧有许多列,它们彼此不共享,因此无法执行此操作。