Python 如何在pyspark中按增量顺序排列列的重复值

Python 如何在pyspark中按增量顺序排列列的重复值,python,dataframe,pyspark,data-analysis,data-wrangling,Python,Dataframe,Pyspark,Data Analysis,Data Wrangling,我有一个示例数据框,如下所示: customer id|trigger_id ======================= 1 |1101 2 |1102 3 |1101 4 |1102 现在,我们想将触发器的每个重复值按递增顺序排列为 customer id|trigger_id|rank =========================== 1 |1101 |1 2 |

我有一个示例数据框,如下所示:

customer id|trigger_id
=======================
1          |1101
2          |1102
3          |1101
4          |1102
现在,我们想将触发器的每个重复值按递增顺序排列为

customer id|trigger_id|rank
===========================
1          |1101      |1
2          |1102      |1
3          |1101      |2
4          |1102      |2
之后有两个不同的数据帧,一个具有所有偶数秩记录,另一个具有所有奇数秩记录

抱歉,格式错误

提前感谢。

使用该功能

示例:

df.show()
#+-----------+----------+
#|customer_id|trigger_id|
#+-----------+----------+
#|          1|      1101|
#|          2|      1102|
#|          3|      1101|
#|          4|      1102|
#+-----------+----------+
from pyspark.sql.functions import *
from pyspark.sql import *
w=Window.partitionBy("trigger_id").orderBy("customer_id")

#using dense_rank()
df.withColumn("rank",rank().over(w)).show()
#+-----------+----------+----+
#|customer_id|trigger_id|rank|
#+-----------+----------+----+
#|          2|      1102|   1|
#|          4|      1102|   2|
#|          1|      1101|   1|
#|          3|      1101|   2|
#+-----------+----------+----+
对于唯一值,请使用行号()

df.withColumn("rank",row_number().over(w)).orderBy("customer_id").show()
df.withColumn("rank",dense_rank().over(w)).orderBy("customer_id").show()
#+-----------+----------+----+
#|customer_id|trigger_id|rank|
#+-----------+----------+----+
#|          1|      1101|   1|
#|          2|      1102|   1|
#|          3|      1101|   2|
#|          4|      1102|   2|
#+-----------+----------+----+