Python 如何从pyspark中的RDD获取键值输出
以下是RDD:Python 如何从pyspark中的RDD获取键值输出,python,pyspark,rdd,Python,Pyspark,Rdd,以下是RDD: [(8, [u'darkness']), (2, [u'in', u'of', u'of', u'of']), (4, [u'book', u'form', u'void', u'upon', u'face', u'deep', u'upon', u'face'])] 如何打印上面的键和值长度 上述的输出应为: (关键字,列表中的字数) (8,1)(2,4)(4,8) 您可以使用map函数创建键的元组和列表中的字数: data = sc.parallelize([(8, [u'
[(8, [u'darkness']), (2, [u'in', u'of', u'of', u'of']),
(4, [u'book', u'form', u'void', u'upon', u'face', u'deep', u'upon', u'face'])]
如何打印上面的键和值长度
上述的输出应为:
(关键字,列表中的字数)
(8,1)(2,4)(4,8)
您可以使用
map
函数创建键的元组和列表中的字数:
data = sc.parallelize([(8, [u'darkness']), (2, [u'in', u'of', u'of', u'of']), (4, [u'book', u'form', u'void', u'upon', u'face', u'deep', u'upon', u'face'])])
data.map(lambda x:tuple([x[0],len(x[1])])).collect()