在pyspark数据框中排列两列记录_Pyspark_Pyspark Sql

在pyspark数据框中排列两列记录

pyspark

在pyspark数据框中排列两列记录,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我想在一列中获取记录，以便进一步用于分组。 1.col2中存在的col1中的记录（如账户）需要替换为col2行值类似的col1记录，即（AACCOUNT） 2.在col2中复制的记录，如（JoinMuquick）必须以这样一种方式进行处理：col1（joinqui）值的第二次出现应替换为col1（joinmquiz）值的第一次出现，col1（joinqui）应替换col2（JoinMuquick）值以下是我期望的结果 |-----------|--------------| | co

我想在一列中获取记录，以便进一步用于分组。 1.col2中存在的col1中的记录（如账户）需要替换为col2行值类似的col1记录，即（AACCOUNT） 2.在col2中复制的记录，如（JoinMuquick）必须以这样一种方式进行处理：col1（joinqui）值的第二次出现应替换为col1（joinmquiz）值的第一次出现，col1（joinqui）应替换col2（JoinMuquick）值

以下是我期望的结果

 |-----------|--------------|   
 | col1      |    col2      |
 |-----------|--------------|
 |aaccounti  |  account     |
 |aaccounti  |  baccountry  |
 |joinmquiz  | joinmuquiz   |
 |joinmquiz  | joinqui      |
 |ahanime    |   hanime     |
 ----------------------------

关于这个问题的陈述非常不清楚。不确定人们是否能理解。请使用自连接

 |-----------|--------------|   
 | col1      |    col2      |
 |-----------|--------------|
 |aaccounti  |  account     |
 |aaccounti  |  baccountry  |
 |joinmquiz  | joinmuquiz   |
 |joinmquiz  | joinqui      |
 |ahanime    |   hanime     |
 ----------------------------