Apache spark 了解pyspark中的重新分区行为_Apache Spark_Pyspark

Apache spark 了解pyspark中的重新分区行为

apache-spark pyspark

Apache spark 了解pyspark中的重新分区行为,apache-spark,pyspark,Apache Spark,Pyspark,我理解重新分配的行为。我读到，repartition（“colname”）返回200个分区，作为spark.sql.shuffle.partitions设置为200 在我的数据集中，country列有两个不同的值，但在使用df.repartition（“country”）重新分区数据集之后，我得到了一个分区。我正在运行这个示例。有人能帮我理解这个吗

我理解重新分配的行为。我读到，

repartition（“colname”）

返回200个分区，作为

spark.sql.shuffle.partitions

设置为200

在我的数据集中，country列有两个不同的值，但在使用

df.repartition（“country”）

重新分区数据集之后，我得到了一个分区。我正在运行这个示例。有人能帮我理解这个吗