Apache spark 如何在Spark中打印每个分区的长度？_Apache Spark_Pyspark

Apache spark 如何在Spark中打印每个分区的长度？

apache-spark pyspark

Apache spark 如何在Spark中打印每个分区的长度？,apache-spark,pyspark,Apache Spark,Pyspark,我有2000个分区，正在尝试运行以下代码段： l = df.rdd.mapPartitionsWithIndex(lambda x,it: [(x,sum(1 for _ in it))]).collect() 此代码段的每个变体都会出现以下错误：序号必须>=1。我不知道这意味着什么。我需要做什么才能可靠地打印每个分区的长度？我正在用Python编写，并针对Spark 2.3.0执行使用类似的方法 rdd.mapPartitionsWithIndex（lambda x，y：（x，len（li

我有2000个分区，正在尝试运行以下代码段：

l = df.rdd.mapPartitionsWithIndex(lambda x,it: [(x,sum(1 for _ in it))]).collect()

此代码段的每个变体都会出现以下错误：

序号必须>=1

。我不知道这意味着什么。我需要做什么才能可靠地打印每个分区的长度？我正在用Python编写，并针对Spark 2.3.0执行

使用类似的方法

rdd.mapPartitionsWithIndex（lambda x，y：（x，len（list（y）））