在Spark with Python中将带有unicode数据列表的RDD转换为元组的RDD

在Spark with Python中将带有unicode数据列表的RDD转换为元组的RDD,python,list,apache-spark,tuples,rdd,Python,List,Apache Spark,Tuples,Rdd,我有一个RDD,其中包含unicode数据的list,如: [[u'2002-03-31',u'emp1',u'20000'],[u'2002-05-11',u'emp2',u'23050'],[u'2002-05-17',u'emp1',u'23300']...] 我想把它转换成RDD和tuple类似: [(u'2002-03-31',u'emp1',u'20000'),(u'2002-05-11',u'emp2',u'23050'),(u'2002-05-17',u'emp1',u'233

我有一个
RDD
,其中包含
unicode
数据的
list
,如:

[[u'2002-03-31',u'emp1',u'20000'],[u'2002-05-11',u'emp2',u'23050'],[u'2002-05-17',u'emp1',u'23300']...]
我想把它转换成
RDD
tuple
类似:

[(u'2002-03-31',u'emp1',u'20000'),(u'2002-05-11',u'emp2',u'23050'),(u'2002-05-17',u'emp1',u'23300')...]

如何做到这一点?

您只需使用
元组映射即可:

rdd = sc.parallelize([
    [u'2002-03-31', u'emp1', u'20000'],
    [u'2002-05-11', u'emp2', u'23050'],
    [u'2002-05-17', u'emp1', u'23300']])

tuples = rdd.map(tuple)
tuples.first()
## ('2002-03-31', 'emp1', '20000')