Apache spark 如何在Spark中打印每个分区的长度?

Apache spark 如何在Spark中打印每个分区的长度?,apache-spark,pyspark,Apache Spark,Pyspark,我有2000个分区,正在尝试运行以下代码段: l = df.rdd.mapPartitionsWithIndex(lambda x,it: [(x,sum(1 for _ in it))]).collect() 此代码段的每个变体都会出现以下错误:序号必须>=1。我不知道这意味着什么。我需要做什么才能可靠地打印每个分区的长度?我正在用Python编写,并针对Spark 2.3.0执行 使用类似的方法 rdd.mapPartitionsWithIndex(lambda x,y:(x,len(li

我有2000个分区,正在尝试运行以下代码段:

l = df.rdd.mapPartitionsWithIndex(lambda x,it: [(x,sum(1 for _ in it))]).collect()
此代码段的每个变体都会出现以下错误:
序号必须>=1
。我不知道这意味着什么。我需要做什么才能可靠地打印每个分区的长度?我正在用Python编写,并针对Spark 2.3.0执行

使用类似的方法
rdd.mapPartitionsWithIndex(lambda x,y:(x,len(list(y)))