从pyspark dataframe中删除具有相同值但位于不同列中的重复行_Pyspark_Pyspark Dataframes

从pyspark dataframe中删除具有相同值但位于不同列中的重复行

pyspark

从pyspark dataframe中删除具有相同值但位于不同列中的重复行,pyspark,pyspark-dataframes,Pyspark,Pyspark Dataframes,我想从两列中删除重复的行。包含两个值的行具有相同的记录，但顺序相反 |--------------|-------------------| | name | alt_name | |----------------------------------| | a10.samsung | a20.samsung | | x.iphone | xr.iphone | | 3.nokia | 5.nokia

我想从两列中删除重复的行。包含两个值的行具有相同的记录，但顺序相反

|--------------|-------------------|
|   name       |   alt_name        |
|----------------------------------|
|  a10.samsung | a20.samsung       |
|  x.iphone    |  xr.iphone        |
|  3.nokia     |  5.nokia          |
| a20.samsung  | a10.samsung       |
| 5.nokia      | 3.nokia           |
|  xr.iphone   |  x.iphone         |
------------------------------------

我想要以下输出

|--------------|-------------------|
|   name       |   alt_name        |
|----------------------------------|
|  3.nokia     |  5.nokia          |
|  a10.samsung | a20.samsung       |
|  x.iphone    |  xr.iphone        |
------------------------------------

您可以使用spark sql执行此操作：

我假设您的原始数据帧名称为手机和代码，以删除重复项：

mobiles.createTempView（'tablename'）
newDF=spark.sql（“select*from tablename where name这是一个从行中删除重复项的不同问题。您引用的链接在同一列中有不同行的重复项。但在本例中，它在不同列中。我已删除该标志。谢谢