Python Pyspark:RDD(具有令牌列表)到RDD(具有每行一个令牌)
我有一个带有标记的列表,例如:Python Pyspark:RDD(具有令牌列表)到RDD(具有每行一个令牌),python,list,apache-spark,pyspark,Python,List,Apache Spark,Pyspark,我有一个带有标记的列表,例如: mylist = [['hello'], ['cat'], ['dog'], ['hey'], ['dog'], ['I', 'need', 'coffee'], ['dance'], ['dream', 'job']] myRDD = sc.parallelize(mylist) 我正在努力寻找一种可能导致RDD的方法,
mylist = [['hello'],
['cat'],
['dog'],
['hey'],
['dog'],
['I', 'need', 'coffee'],
['dance'],
['dream', 'job']]
myRDD = sc.parallelize(mylist)
我正在努力寻找一种可能导致RDD的方法,其中每一行都是一个令牌。我期望的输出是:
[['hello'],
['cat'],
['dog'],
['hey'],
['dog'],
['I'],
['need'],
['coffee'],
['dance'],
['dream'],
['job']]
这个的正确语法是什么?谢谢你只是
flatMap
:
myRDD.flatMap(lambda xs: ([x] for x in xs))
只是
flatMap
:
myRDD.flatMap(lambda xs: ([x] for x in xs))
假设您的意思是
x
vs[x]
或者更简单地说myRDD.flatMap(lambda xs:xs)
[x]
实际上是正确的,问题需要单元素列表的RDD。假设您的意思是x
vs[x]
或者更简单地说myRDD.flatMap(lambda xs:xs)
[x]
,问题要求单元素列表的RDD。。