Python 从DF列转换rdd
我从DF列中创建了一个RDDPython 从DF列转换rdd,python,apache-spark,dataframe,pyspark,rdd,Python,Apache Spark,Dataframe,Pyspark,Rdd,我从DF列中创建了一个RDD ##converting a column into an rdd rdd = eDF_review_split.select('splReview').rdd.map(list) ##print rdd.take(10) 我得到的结果如下 [[u'Installing'], [u'the'], [u'game'], [u'was'], [u'a'], [u'struggle'], [u'(because'], [u'of'], [u'games'], [u'fo
##converting a column into an rdd
rdd = eDF_review_split.select('splReview').rdd.map(list)
##print rdd.take(10)
我得到的结果如下
[[u'Installing'], [u'the'], [u'game'], [u'was'], [u'a'], [u'struggle'], [u'(because'], [u'of'], [u'games'], [u'for']]
这很有意义,因为这些单词来自不同的行
我如何将其转换为如下格式
[u'Installing', u'the', u'game', u'was', u'a', u'struggle', u'(because', u'of', u'games', u'for']
我需要这样做,以便进行适当的字数计算。遍历列表列表,对于主列表中的每个列表,将值附加到另一个列表中 一艘班轮:
list_main_separated = [item for insideList in rdd for item in insideList]
这意味着:
list_main_separated = []
for insideList in rdd:
for item in insideList :
list_main_separated .append(item )
遍历列表列表,对于主列表中的每个列表,将值附加到另一个列表中 一艘班轮:
list_main_separated = [item for insideList in rdd for item in insideList]
这意味着:
list_main_separated = []
for insideList in rdd:
for item in insideList :
list_main_separated .append(item )
:
flatMap(f,preservespatiting=False)
首先将函数应用于此RDD的所有元素,然后将结果展平,返回一个新的RDD
与:
我需要这样做,这样我可以做一个适当的字数
:
flatMap(f,preservespatiting=False)
首先将函数应用于此RDD的所有元素,然后将结果展平,返回一个新的RDD
与:
我需要这样做,这样我可以做一个适当的字数
是的,我认为这应该行得通,但是bcuz我的rdd很大,它跳过了任务PS。bcuz我得到'PipelinedRDD'对象不合适,我正在添加rdd。ToLocalitator()是的,我认为这应该行得通,但是bcuz我的rdd很大,它跳过了任务PS。bcuz我得到'PipelinedRDD'对象不合适,我正在添加rdd。ToLocalitator()eDF审查分割的模式是什么?你能提供一个抽样数据吗?为什么为了简单的字数计算而将列表展平?您可以并行执行reduce,
eDF\u review\u split的模式是什么?你能提供一个抽样数据吗?为什么为了简单的字数计算而将列表展平?您可以并行执行reduce