在pyspark数据框中排列两列记录
我想在一列中获取记录,以便进一步用于分组。 1.col2中存在的col1中的记录(如账户)需要替换为col2行值类似的col1记录,即(AACCOUNT) 2.在col2中复制的记录,如(JoinMuquick)必须以这样一种方式进行处理:col1(joinqui)值的第二次出现应替换为col1(joinmquiz)值的第一次出现,col1(joinqui)应替换col2(JoinMuquick)值 以下是我期望的结果在pyspark数据框中排列两列记录,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我想在一列中获取记录,以便进一步用于分组。 1.col2中存在的col1中的记录(如账户)需要替换为col2行值类似的col1记录,即(AACCOUNT) 2.在col2中复制的记录,如(JoinMuquick)必须以这样一种方式进行处理:col1(joinqui)值的第二次出现应替换为col1(joinmquiz)值的第一次出现,col1(joinqui)应替换col2(JoinMuquick)值 以下是我期望的结果 |-----------|--------------| | co
|-----------|--------------|
| col1 | col2 |
|-----------|--------------|
|aaccounti | account |
|aaccounti | baccountry |
|joinmquiz | joinmuquiz |
|joinmquiz | joinqui |
|ahanime | hanime |
----------------------------
关于这个问题的陈述非常不清楚。不确定人们是否能理解。请使用自连接
|-----------|--------------|
| col1 | col2 |
|-----------|--------------|
|aaccounti | account |
|aaccounti | baccountry |
|joinmquiz | joinmuquiz |
|joinmquiz | joinqui |
|ahanime | hanime |
----------------------------