pyspark:获取rdd上groupby的第二个元素的大小

pyspark:获取rdd上groupby的第二个元素的大小,pyspark,rdd,Pyspark,Rdd,我有一个rdd,它是通过如下输入创建的: 0 1 0 2 1 2 1 3 rdd2 = rdd1.groupBy(lambda x: x[0]) 我做一个groupBy,如下所示: 0 1 0 2 1 2 1 3 rdd2 = rdd1.groupBy(lambda x: x[0]) 现在rdd2将类似于: [(0,[1,2]),(1,[2,3])] 我的问题是,如何获得与每个元素关联的列表的大小 谢谢您可以使用mapValues和len: rdd2.mapValues(list).m

我有一个rdd,它是通过如下输入创建的:

0 1
0 2
1 2
1 3
rdd2 = rdd1.groupBy(lambda x: x[0])
我做一个groupBy,如下所示:

0 1
0 2
1 2
1 3
rdd2 = rdd1.groupBy(lambda x: x[0])
现在rdd2将类似于:

[(0,[1,2]),(1,[2,3])]
我的问题是,如何获得与每个元素关联的列表的大小


谢谢

您可以使用
mapValues
len

rdd2.mapValues(list).mapValues(len)