Python 3.x mapPartitionsWithIndex-如何组合输出_Python 3.x_Apache Spark_Pyspark

Python 3.x mapPartitionsWithIndex-如何组合输出

python-3.x apache-spark pyspark

Python 3.x mapPartitionsWithIndex-如何组合输出,python-3.x,apache-spark,pyspark,Python 3.x,Apache Spark,Pyspark,我正在努力理解Spark中的mapPartitionsWithIndex。我发现以下两个例子产生了截然不同的结果： parallel = sc.parallelize(range(1,10),2) def show(index, iterator): yield 'index: '+str(index)+" values: "+ str(list(iterator)) parallel.mapPartitionsWithIndex(show).collect() parallel = sc

我正在努力理解Spark中的

mapPartitionsWithIndex

。我发现以下两个例子产生了截然不同的结果：

parallel = sc.parallelize(range(1,10),2)
def show(index, iterator): yield 'index: '+str(index)+" values: "+ 
str(list(iterator))
parallel.mapPartitionsWithIndex(show).collect()


parallel = sc.parallelize(range(1,10),2)
def show(index, iterator): return 'index: '+str(index)+" values: "+ 
str(list(iterator))
parallel.mapPartitionsWithIndex(show).collect()

正如突出显示的，区别在于show函数返回的是生成器还是迭代器

我想我不明白

mapPartitionsWithIndex

如何组合各个分区的结果

你能给我解释一下这种行为是怎么发生的吗

mapPartitionsWithIndex(self, f, preservesPartitioning=False)

参数：

必须返回一个iterable对象

通常，如果没有返回iterable对象，则应该引发错误

但在您的案例2中，

返回字符串

通过源代码（pyspark/serializers.py，第266行）中的

迭代器=iter（迭代器）

错误地变成了

返回字母列表

如果您坚持使用

return

，只需

return[“我是字符串”]