pyspark：获取rdd上groupby的第二个元素的大小_Pyspark_Rdd

pyspark：获取rdd上groupby的第二个元素的大小

pyspark

pyspark：获取rdd上groupby的第二个元素的大小,pyspark,rdd,Pyspark,Rdd,我有一个rdd，它是通过如下输入创建的： 0 1 0 2 1 2 1 3 rdd2 = rdd1.groupBy(lambda x: x[0]) 我做一个groupBy，如下所示： 0 1 0 2 1 2 1 3 rdd2 = rdd1.groupBy(lambda x: x[0]) 现在rdd2将类似于： [(0,[1,2]),(1,[2,3])] 我的问题是，如何获得与每个元素关联的列表的大小谢谢您可以使用mapValues和len： rdd2.mapValues(list).m

我有一个rdd，它是通过如下输入创建的：

rdd2 = rdd1.groupBy(lambda x: x[0])

我做一个groupBy，如下所示：

rdd2 = rdd1.groupBy(lambda x: x[0])

现在rdd2将类似于：

[(0,[1,2]),(1,[2,3])]

我的问题是，如何获得与每个元素关联的列表的大小

谢谢

您可以使用

mapValues

和

len

：

rdd2.mapValues(list).mapValues(len)