Pyspark 如何在按列划分的范围内限制最大分区数

Pyspark 如何在按列划分的范围内限制最大分区数,pyspark,Pyspark,我有一个PySpark数据帧,如: City SomeValue NY 5 NY 4 WA 1 WA 3 CA 7 SF 8 我想将其写入例如2个文件,但具有相同城市值的所有记录都应位于同一个文件中(文件数应小于唯一城市数)。我如何使用pySpark完成它

我有一个PySpark数据帧,如:

City  SomeValue

NY     5
NY     4   
WA     1
WA     3
CA     7
SF     8
我想将其写入例如2个文件,但具有相同城市值的所有记录都应位于同一个文件中(文件数应小于唯一城市数)。我如何使用pySpark完成它