Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 重复且不属于数据帧连接条件的列-如何在PySpark中删除?_Apache Spark - Fatal编程技术网

Apache spark 重复且不属于数据帧连接条件的列-如何在PySpark中删除?

Apache spark 重复且不属于数据帧连接条件的列-如何在PySpark中删除?,apache-spark,Apache Spark,我有两个数据帧,它们有共同的列名 df1->ID、姓名、地址、部门 df2->ID、名称、地址、核心 加入它们后,我会得到重复的列 joinedDF = df1.join(df2,['ID'],"inner") joinedDF.dtypes -> ID, Name, Address, Dept, Name, Address, Core 如何删除不属于联接的重复列?我只想取两个重复列中的一个。所以期望的输出是- joinedDF.dtypes -> ID, df1.Name, df

我有两个数据帧,它们有共同的列名

df1->ID、姓名、地址、部门

df2->ID、名称、地址、核心

加入它们后,我会得到重复的列

joinedDF = df1.join(df2,['ID'],"inner")
joinedDF.dtypes -> ID, Name, Address, Dept, Name, Address, Core
如何删除不属于联接的重复列?我只想取两个重复列中的一个。所以期望的输出是-

joinedDF.dtypes -> ID, df1.Name, df2. Address, Dept, Core

如果使用列名作为字符串或数组指定联接条件,则不会产生作为联接列一部分的重复列(在本例中,它是一个列“ID”), 但其他未联接的列可能会导致重复

由于有重复的列,而这些列不是连接列的一部分,所以只需选择所需的列

joinedDF = df1.join(df2,['ID'],"inner").select(df1["ID"], df1["Name"], df2["Address"], df1["Dept"],df2["Core"])