Pyspark 如何在按列划分的范围内限制最大分区数
我有一个PySpark数据帧,如:Pyspark 如何在按列划分的范围内限制最大分区数,pyspark,Pyspark,我有一个PySpark数据帧,如: City SomeValue NY 5 NY 4 WA 1 WA 3 CA 7 SF 8 我想将其写入例如2个文件,但具有相同城市值的所有记录都应位于同一个文件中(文件数应小于唯一城市数)。我如何使用pySpark完成它
City SomeValue
NY 5
NY 4
WA 1
WA 3
CA 7
SF 8
我想将其写入例如2个文件,但具有相同城市值的所有记录都应位于同一个文件中(文件数应小于唯一城市数)。我如何使用pySpark完成它