Apache spark 重复且不属于数据帧连接条件的列-如何在PySpark中删除？_Apache Spark

Apache spark 重复且不属于数据帧连接条件的列-如何在PySpark中删除？

apache-spark

Apache spark 重复且不属于数据帧连接条件的列-如何在PySpark中删除？,apache-spark,Apache Spark,我有两个数据帧，它们有共同的列名 df1->ID、姓名、地址、部门 df2->ID、名称、地址、核心加入它们后，我会得到重复的列 joinedDF = df1.join(df2,['ID'],"inner") joinedDF.dtypes -> ID, Name, Address, Dept, Name, Address, Core 如何删除不属于联接的重复列？我只想取两个重复列中的一个。所以期望的输出是- joinedDF.dtypes -> ID, df1.Name, df

我有两个数据帧，它们有共同的列名

df1->ID、姓名、地址、部门

df2->ID、名称、地址、核心

加入它们后，我会得到重复的列

joinedDF = df1.join(df2,['ID'],"inner")
joinedDF.dtypes -> ID, Name, Address, Dept, Name, Address, Core

如何删除不属于联接的重复列？我只想取两个重复列中的一个。所以期望的输出是-

joinedDF.dtypes -> ID, df1.Name, df2. Address, Dept, Core

如果使用列名作为字符串或数组指定联接条件，则不会产生作为联接列一部分的重复列（在本例中，它是一个列“ID”），但其他未联接的列可能会导致重复

由于有重复的列，而这些列不是连接列的一部分，所以只需选择所需的列

joinedDF = df1.join(df2,['ID'],"inner").select(df1["ID"], df1["Name"], df2["Address"], df1["Dept"],df2["Core"])