Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark ApacheSpark-映射、过滤和获取(1)_Apache Spark_Pyspark - Fatal编程技术网

Apache spark ApacheSpark-映射、过滤和获取(1)

Apache spark ApacheSpark-映射、过滤和获取(1),apache-spark,pyspark,Apache Spark,Pyspark,我知道map和filter转换的用法,但我想澄清一点,map逐个更改rdd中每个元素的内容,如果我使用myrdd.map().filter().take(1)当第一个元素通过filter函数时map()函数停止?还是执行整个map()函数,然后过滤器执行操作? 我试图转换每个rdd元素,如果元素满足条件,则map()函数停止并返回元素。似乎暗示没有快捷方式,并且整个映射和过滤器都已执行 以RDD的第一个num元素为例 它首先扫描一个分区,然后使用 该分区用于估计所需的额外分区的数量 满足极限 从

我知道map和filter转换的用法,但我想澄清一点,map逐个更改rdd中每个元素的内容,如果我使用myrdd.map().filter().take(1)当第一个元素通过filter函数时map()函数停止?还是执行整个map()函数,然后过滤器执行操作? 我试图转换每个rdd元素,如果元素满足条件,则map()函数停止并返回元素。

似乎暗示没有快捷方式,并且整个
映射和
过滤器都已执行

以RDD的第一个num元素为例

它首先扫描一个分区,然后使用 该分区用于估计所需的额外分区的数量 满足极限

从RDD#take()中的Scala实现转换而来

注意:仅当生成的数组为 由于所有数据都加载到驾驶员的电脑中,因此预计会很小 记忆


我的最佳猜测是,惰性评估将到位,当第一个记录通过过滤器时,它就完成了