Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x mapPartitionsWithIndex-如何组合输出_Python 3.x_Apache Spark_Pyspark - Fatal编程技术网

Python 3.x mapPartitionsWithIndex-如何组合输出

Python 3.x mapPartitionsWithIndex-如何组合输出,python-3.x,apache-spark,pyspark,Python 3.x,Apache Spark,Pyspark,我正在努力理解Spark中的mapPartitionsWithIndex。我发现以下两个例子产生了截然不同的结果: parallel = sc.parallelize(range(1,10),2) def show(index, iterator): yield 'index: '+str(index)+" values: "+ str(list(iterator)) parallel.mapPartitionsWithIndex(show).collect() parallel = sc

我正在努力理解Spark中的
mapPartitionsWithIndex
。我发现以下两个例子产生了截然不同的结果:

parallel = sc.parallelize(range(1,10),2)
def show(index, iterator): yield 'index: '+str(index)+" values: "+ 
str(list(iterator))
parallel.mapPartitionsWithIndex(show).collect()


parallel = sc.parallelize(range(1,10),2)
def show(index, iterator): return 'index: '+str(index)+" values: "+ 
str(list(iterator))
parallel.mapPartitionsWithIndex(show).collect()
正如突出显示的,区别在于show函数返回的是生成器还是迭代器

我想我不明白
mapPartitionsWithIndex
如何组合各个分区的结果

你能给我解释一下这种行为是怎么发生的吗

mapPartitionsWithIndex(self, f, preservesPartitioning=False)
参数:
f
必须返回一个iterable对象

通常,如果没有返回iterable对象,则应该引发错误

但在您的案例2中,
返回字符串
通过源代码(pyspark/serializers.py,第266行)中的
迭代器=iter(迭代器)
错误地变成了
返回字母列表

如果您坚持使用
return
,只需
return[“我是字符串”]