在pyspark数据框中排列两列记录

在pyspark数据框中排列两列记录,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我想在一列中获取记录,以便进一步用于分组。 1.col2中存在的col1中的记录(如账户)需要替换为col2行值类似的col1记录,即(AACCOUNT) 2.在col2中复制的记录,如(JoinMuquick)必须以这样一种方式进行处理:col1(joinqui)值的第二次出现应替换为col1(joinmquiz)值的第一次出现,col1(joinqui)应替换col2(JoinMuquick)值 以下是我期望的结果 |-----------|--------------| | co

我想在一列中获取记录,以便进一步用于分组。 1.col2中存在的col1中的记录(如账户)需要替换为col2行值类似的col1记录,即(AACCOUNT) 2.在col2中复制的记录,如(JoinMuquick)必须以这样一种方式进行处理:col1(joinqui)值的第二次出现应替换为col1(joinmquiz)值的第一次出现,col1(joinqui)应替换col2(JoinMuquick)值

以下是我期望的结果

 |-----------|--------------|   
 | col1      |    col2      |
 |-----------|--------------|
 |aaccounti  |  account     |
 |aaccounti  |  baccountry  |
 |joinmquiz  | joinmuquiz   |
 |joinmquiz  | joinqui      |
 |ahanime    |   hanime     |
 ----------------------------

关于这个问题的陈述非常不清楚。不确定人们是否能理解。请使用自连接
 |-----------|--------------|   
 | col1      |    col2      |
 |-----------|--------------|
 |aaccounti  |  account     |
 |aaccounti  |  baccountry  |
 |joinmquiz  | joinmuquiz   |
 |joinmquiz  | joinqui      |
 |ahanime    |   hanime     |
 ----------------------------