Python 从DF列转换rdd

Python 从DF列转换rdd,python,apache-spark,dataframe,pyspark,rdd,Python,Apache Spark,Dataframe,Pyspark,Rdd,我从DF列中创建了一个RDD ##converting a column into an rdd rdd = eDF_review_split.select('splReview').rdd.map(list) ##print rdd.take(10) 我得到的结果如下 [[u'Installing'], [u'the'], [u'game'], [u'was'], [u'a'], [u'struggle'], [u'(because'], [u'of'], [u'games'], [u'fo

我从DF列中创建了一个RDD

##converting a column into an rdd
rdd = eDF_review_split.select('splReview').rdd.map(list)
##print rdd.take(10)
我得到的结果如下

[[u'Installing'], [u'the'], [u'game'], [u'was'], [u'a'], [u'struggle'], [u'(because'], [u'of'], [u'games'], [u'for']]
这很有意义,因为这些单词来自不同的行

我如何将其转换为如下格式

[u'Installing', u'the', u'game', u'was', u'a', u'struggle', u'(because', u'of', u'games', u'for']

我需要这样做,以便进行适当的字数计算。

遍历列表列表,对于主列表中的每个列表,将值附加到另一个列表中

一艘班轮:

list_main_separated = [item for insideList in rdd for item in insideList]
这意味着:

list_main_separated = []

for insideList in rdd:
    for item in insideList :
        list_main_separated .append(item )

遍历列表列表,对于主列表中的每个列表,将值附加到另一个列表中

一艘班轮:

list_main_separated = [item for insideList in rdd for item in insideList]
这意味着:

list_main_separated = []

for insideList in rdd:
    for item in insideList :
        list_main_separated .append(item )
:

flatMap(f,preservespatiting=False)

首先将函数应用于此RDD的所有元素,然后将结果展平,返回一个新的RDD

与:

我需要这样做,这样我可以做一个适当的字数

:

flatMap(f,preservespatiting=False)

首先将函数应用于此RDD的所有元素,然后将结果展平,返回一个新的RDD

与:

我需要这样做,这样我可以做一个适当的字数


是的,我认为这应该行得通,但是bcuz我的rdd很大,它跳过了任务PS。bcuz我得到'PipelinedRDD'对象不合适,我正在添加rdd。ToLocalitator()是的,我认为这应该行得通,但是bcuz我的rdd很大,它跳过了任务PS。bcuz我得到'PipelinedRDD'对象不合适,我正在添加rdd。ToLocalitator()eDF审查分割的模式是什么?你能提供一个抽样数据吗?为什么为了简单的字数计算而将列表展平?您可以并行执行reduce,
eDF\u review\u split的模式是什么?你能提供一个抽样数据吗?为什么为了简单的字数计算而将列表展平?您可以并行执行reduce