在Spark with Python中将带有unicode数据列表的RDD转换为元组的RDD
我有一个在Spark with Python中将带有unicode数据列表的RDD转换为元组的RDD,python,list,apache-spark,tuples,rdd,Python,List,Apache Spark,Tuples,Rdd,我有一个RDD,其中包含unicode数据的list,如: [[u'2002-03-31',u'emp1',u'20000'],[u'2002-05-11',u'emp2',u'23050'],[u'2002-05-17',u'emp1',u'23300']...] 我想把它转换成RDD和tuple类似: [(u'2002-03-31',u'emp1',u'20000'),(u'2002-05-11',u'emp2',u'23050'),(u'2002-05-17',u'emp1',u'233
RDD
,其中包含unicode
数据的list
,如:
[[u'2002-03-31',u'emp1',u'20000'],[u'2002-05-11',u'emp2',u'23050'],[u'2002-05-17',u'emp1',u'23300']...]
我想把它转换成RDD
和tuple
类似:
[(u'2002-03-31',u'emp1',u'20000'),(u'2002-05-11',u'emp2',u'23050'),(u'2002-05-17',u'emp1',u'23300')...]
如何做到这一点?您只需使用
元组映射即可:
rdd = sc.parallelize([
[u'2002-03-31', u'emp1', u'20000'],
[u'2002-05-11', u'emp2', u'23050'],
[u'2002-05-17', u'emp1', u'23300']])
tuples = rdd.map(tuple)
tuples.first()
## ('2002-03-31', 'emp1', '20000')