Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 合并两个不同的pyspark数据帧_Apache Spark_Hadoop_Dataframe_Pyspark_Apache Spark Sql - Fatal编程技术网

Apache spark 合并两个不同的pyspark数据帧

Apache spark 合并两个不同的pyspark数据帧,apache-spark,hadoop,dataframe,pyspark,apache-spark-sql,Apache Spark,Hadoop,Dataframe,Pyspark,Apache Spark Sql,我有两个具有不同值的pyspark数据帧,我希望在某些条件下合并它们。下面是我所拥有的 DF-1 date person_surname person_order_number item 2017-08-09 pearson 1 shoes 2017-08-09 zayne 3

我有两个具有不同值的pyspark数据帧,我希望在某些条件下合并它们。下面是我所拥有的

DF-1
date           person_surname     person_order_number      item                        
2017-08-09       pearson                  1                shoes
2017-08-09       zayne                    3                clothes

DF-2
date           person_surname      person_order_number    person_slary 
2017-08-09       pearson                  2                $1000
2017-08-09       zayne                    5                $2000
我想合并DF1和DF2,这样人们的姓氏匹配,并且人的顺序号合并正确。因此,我希望返回以下内容

 DF_pearson
 date       person_surname     person_order_number   item     salary                      
 2017-08-09    pearson                  1            shoes
 2017-08-09    pearson                  2                     $1000


  DF_Zayne
  date       person_surname     person_order_number   item    salary
  2017-08-09       zayne                    3        clothes
  2017-08-09       zayne                    5                $2000

我如何做到这一点?然后,我还想对这些数据帧中的每一个执行操作。

将它们合并,然后使用姓氏过滤到数据帧中。幸运的是,我的主数据帧有许多列,它们彼此不共享,因此无法执行此操作。