Apache spark 重复且不属于数据帧连接条件的列-如何在PySpark中删除?
我有两个数据帧,它们有共同的列名 df1->ID、姓名、地址、部门 df2->ID、名称、地址、核心 加入它们后,我会得到重复的列Apache spark 重复且不属于数据帧连接条件的列-如何在PySpark中删除?,apache-spark,Apache Spark,我有两个数据帧,它们有共同的列名 df1->ID、姓名、地址、部门 df2->ID、名称、地址、核心 加入它们后,我会得到重复的列 joinedDF = df1.join(df2,['ID'],"inner") joinedDF.dtypes -> ID, Name, Address, Dept, Name, Address, Core 如何删除不属于联接的重复列?我只想取两个重复列中的一个。所以期望的输出是- joinedDF.dtypes -> ID, df1.Name, df
joinedDF = df1.join(df2,['ID'],"inner")
joinedDF.dtypes -> ID, Name, Address, Dept, Name, Address, Core
如何删除不属于联接的重复列?我只想取两个重复列中的一个。所以期望的输出是-
joinedDF.dtypes -> ID, df1.Name, df2. Address, Dept, Core
如果使用列名作为字符串或数组指定联接条件,则不会产生作为联接列一部分的重复列(在本例中,它是一个列“ID”), 但其他未联接的列可能会导致重复 由于有重复的列,而这些列不是连接列的一部分,所以只需选择所需的列
joinedDF = df1.join(df2,['ID'],"inner").select(df1["ID"], df1["Name"], df2["Address"], df1["Dept"],df2["Core"])