从pyspark dataframe中删除具有相同值但位于不同列中的重复行
我想从两列中删除重复的行。包含两个值的行具有相同的记录,但顺序相反从pyspark dataframe中删除具有相同值但位于不同列中的重复行,pyspark,pyspark-dataframes,Pyspark,Pyspark Dataframes,我想从两列中删除重复的行。包含两个值的行具有相同的记录,但顺序相反 |--------------|-------------------| | name | alt_name | |----------------------------------| | a10.samsung | a20.samsung | | x.iphone | xr.iphone | | 3.nokia | 5.nokia
|--------------|-------------------|
| name | alt_name |
|----------------------------------|
| a10.samsung | a20.samsung |
| x.iphone | xr.iphone |
| 3.nokia | 5.nokia |
| a20.samsung | a10.samsung |
| 5.nokia | 3.nokia |
| xr.iphone | x.iphone |
------------------------------------
我想要以下输出
|--------------|-------------------|
| name | alt_name |
|----------------------------------|
| 3.nokia | 5.nokia |
| a10.samsung | a20.samsung |
| x.iphone | xr.iphone |
------------------------------------
您可以使用spark sql执行此操作: 我假设您的原始数据帧名称为手机和代码,以删除重复项:
mobiles.createTempView('tablename')
newDF=spark.sql(“select*from tablename where name这是一个从行中删除重复项的不同问题。您引用的链接在同一列中有不同行的重复项。但在本例中,它在不同列中。我已删除该标志。谢谢