Apache spark ApacheSpark-映射、过滤和获取(1)
我知道map和filter转换的用法,但我想澄清一点,map逐个更改rdd中每个元素的内容,如果我使用myrdd.map().filter().take(1)当第一个元素通过filter函数时map()函数停止?还是执行整个map()函数,然后过滤器执行操作? 我试图转换每个rdd元素,如果元素满足条件,则map()函数停止并返回元素。似乎暗示没有快捷方式,并且整个Apache spark ApacheSpark-映射、过滤和获取(1),apache-spark,pyspark,Apache Spark,Pyspark,我知道map和filter转换的用法,但我想澄清一点,map逐个更改rdd中每个元素的内容,如果我使用myrdd.map().filter().take(1)当第一个元素通过filter函数时map()函数停止?还是执行整个map()函数,然后过滤器执行操作? 我试图转换每个rdd元素,如果元素满足条件,则map()函数停止并返回元素。似乎暗示没有快捷方式,并且整个映射和过滤器都已执行 以RDD的第一个num元素为例 它首先扫描一个分区,然后使用 该分区用于估计所需的额外分区的数量 满足极限 从
映射和过滤器都已执行
以RDD的第一个num元素为例
它首先扫描一个分区,然后使用
该分区用于估计所需的额外分区的数量
满足极限
从RDD#take()中的Scala实现转换而来
注意:仅当生成的数组为
由于所有数据都加载到驾驶员的电脑中,因此预计会很小
记忆
我的最佳猜测是,惰性评估将到位,当第一个记录通过过滤器时,它就完成了