如何在pyspark中查看RDD中每个分区的内容?

如何在pyspark中查看RDD中每个分区的内容?,pyspark,rdd,Pyspark,Rdd,我想进一步了解pyspark如何划分数据。我需要这样一个函数: a = sc.parallelize(range(10), 5) show_partitions(a) #output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]] (or however it partitions) 该功能正是您所需要的: glom(self):返回通过将每个分区内的所有元素合并到一个列表中而创建的RDD 通过这种方式,您可以检查数据是如何分区的 a = sc.parall

我想进一步了解pyspark如何划分数据。我需要这样一个函数:

a = sc.parallelize(range(10), 5)
show_partitions(a)

#output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]] (or however it partitions)
该功能正是您所需要的:

glom(self):返回通过将每个分区内的所有元素合并到一个列表中而创建的RDD

通过这种方式,您可以检查数据是如何分区的

a = sc.parallelize(range(10), 5)
a.glom().collect()
#output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]
val data = List((1,3),(1,2),(1,4),(2,3),(3,6),(3,8))
val rdd = sc.parallelize(data)
rdd.glom().collect()
         .foreach(a => {
                         a.foreach(println);
                         println("=====")})