Python 3.x 如何在PySpark中同一列中的两个特定值之间更改值
我有一个巨大的数据框架,在这个框架中,出于道德目的,患者的ID是匿名的。因此,患者的记录被分隔在两个零之间。如何根据患者的顺序更改数据值 原始数据帧 预期结果:Python 3.x 如何在PySpark中同一列中的两个特定值之间更改值,python-3.x,pyspark,Python 3.x,Pyspark,我有一个巨大的数据框架,在这个框架中,出于道德目的,患者的ID是匿名的。因此,患者的记录被分隔在两个零之间。如何根据患者的顺序更改数据值 原始数据帧 预期结果: 理论上,这是不可能做到的。你们有任何一列可以保证你们行的原始顺序吗?数据帧中的行就像包中的大理石,它们没有任何顺序。你可以在把它们从袋子里拿出来的时候点,或者,如果你不太摇晃袋子,它们进来的时候就会出来,但这不能保证。。。 ID Gender Age 0
理论上,这是不可能做到的。你们有任何一列可以保证你们行的原始顺序吗?数据帧中的行就像包中的大理石,它们没有任何顺序。你可以在把它们从袋子里拿出来的时候点,或者,如果你不太摇晃袋子,它们进来的时候就会出来,但这不能保证。。。
ID Gender Age
0 0 0
data Female 73
data Female 73
data Female 73
0 0 0
data Male 80
data Male 80
data Male 80
data Male 80
0 0 0
ID Gender Age
0 0 0
1 Female 73
1 Female 73
1 Female 73
0 0 0
2 Male 80
2 Male 80
2 Male 80
2 Male 80
0 0 0