Python 从DF列转换rdd_Python_Apache Spark_Dataframe_Pyspark_Rdd

Python 从DF列转换rdd

python apache-spark dataframe pyspark

Python 从DF列转换rdd,python,apache-spark,dataframe,pyspark,rdd,Python,Apache Spark,Dataframe,Pyspark,Rdd,我从DF列中创建了一个RDD ##converting a column into an rdd rdd = eDF_review_split.select('splReview').rdd.map(list) ##print rdd.take(10) 我得到的结果如下 [[u'Installing'], [u'the'], [u'game'], [u'was'], [u'a'], [u'struggle'], [u'(because'], [u'of'], [u'games'], [u'fo

我从DF列中创建了一个RDD

##converting a column into an rdd
rdd = eDF_review_split.select('splReview').rdd.map(list)
##print rdd.take(10)

我得到的结果如下

[[u'Installing'], [u'the'], [u'game'], [u'was'], [u'a'], [u'struggle'], [u'(because'], [u'of'], [u'games'], [u'for']]

这很有意义，因为这些单词来自不同的行

我如何将其转换为如下格式

[u'Installing', u'the', u'game', u'was', u'a', u'struggle', u'(because', u'of', u'games', u'for']

我需要这样做，以便进行适当的字数计算。

遍历列表列表，对于主列表中的每个列表，将值附加到另一个列表中

一艘班轮：

list_main_separated = [item for insideList in rdd for item in insideList]

这意味着：

list_main_separated = []

for insideList in rdd:
    for item in insideList :
        list_main_separated .append(item )

遍历列表列表，对于主列表中的每个列表，将值附加到另一个列表中

一艘班轮：

list_main_separated = [item for insideList in rdd for item in insideList]

这意味着：

list_main_separated = []

for insideList in rdd:
    for item in insideList :
        list_main_separated .append(item )

flatMap（f，preservespatiting=False）

首先将函数应用于此RDD的所有元素，然后将结果展平，返回一个新的RDD

与：

我需要这样做，这样我可以做一个适当的字数

flatMap（f，preservespatiting=False）

首先将函数应用于此RDD的所有元素，然后将结果展平，返回一个新的RDD

与：

我需要这样做，这样我可以做一个适当的字数

是的，我认为这应该行得通，但是bcuz我的rdd很大，它跳过了任务PS。bcuz我得到'PipelinedRDD'对象不合适，我正在添加rdd。ToLocalitator（）是的，我认为这应该行得通，但是bcuz我的rdd很大，它跳过了任务PS。bcuz我得到'PipelinedRDD'对象不合适，我正在添加rdd。ToLocalitator（）eDF审查分割的模式是什么？你能提供一个抽样数据吗？为什么为了简单的字数计算而将列表展平？您可以并行执行reduce，

eDF\u review\u split的模式是什么？你能提供一个抽样数据吗？为什么为了简单的字数计算而将列表展平？您可以并行执行reduce