在Spark with Python中将带有unicode数据列表的RDD转换为元组的RDD_Python_List_Apache Spark_Tuples_Rdd

在Spark with Python中将带有unicode数据列表的RDD转换为元组的RDD

python list apache-spark

在Spark with Python中将带有unicode数据列表的RDD转换为元组的RDD,python,list,apache-spark,tuples,rdd,Python,List,Apache Spark,Tuples,Rdd,我有一个RDD，其中包含unicode数据的list，如： [[u'2002-03-31',u'emp1',u'20000'],[u'2002-05-11',u'emp2',u'23050'],[u'2002-05-17',u'emp1',u'23300']...] 我想把它转换成RDD和tuple类似： [(u'2002-03-31',u'emp1',u'20000'),(u'2002-05-11',u'emp2',u'23050'),(u'2002-05-17',u'emp1',u'233

我有一个

RDD

，其中包含

unicode

数据的

list

，如：

[[u'2002-03-31',u'emp1',u'20000'],[u'2002-05-11',u'emp2',u'23050'],[u'2002-05-17',u'emp1',u'23300']...]

我想把它转换成

RDD

和

tuple

类似：

[(u'2002-03-31',u'emp1',u'20000'),(u'2002-05-11',u'emp2',u'23050'),(u'2002-05-17',u'emp1',u'23300')...]

如何做到这一点？

您只需使用

元组映射即可：
rdd = sc.parallelize([
    [u'2002-03-31', u'emp1', u'20000'],
    [u'2002-05-11', u'emp2', u'23050'],
    [u'2002-05-17', u'emp1', u'23300']])

tuples = rdd.map(tuple)
tuples.first()
## ('2002-03-31', 'emp1', '20000')