Apache spark 清点及；火花过滤器_Apache Spark_Pyspark

Apache spark 清点及；火花过滤器

apache-spark pyspark

Apache spark 清点及；火花过滤器,apache-spark,pyspark,Apache Spark,Pyspark,在spark中，通常在使用贴图之前执行过滤操作，以确保贴图是可能的。请参见下面的示例： bc_ids = sc.broadcast(ids) new_ids = users.filter(lambda x: x.id in ids.value).map(lambda x: ids.value[x]) 如果你想知道你过滤掉了多少用户，你如何才能有效地做到这一点？因此，我不想使用： count_before = users.count() new_ids = users.filter(lambda

在spark中，通常在使用贴图之前执行过滤操作，以确保贴图是可能的。请参见下面的示例：

bc_ids = sc.broadcast(ids)
new_ids = users.filter(lambda x: x.id in ids.value).map(lambda x: ids.value[x])

如果你想知道你过滤掉了多少用户，你如何才能有效地做到这一点？因此，我不想使用：

count_before = users.count()
new_ids = users.filter(lambda x: x.id in ids.value).map(lambda x: ids.value[x])
count_after = new_ids .count()

这个问题与spark SQL有关，但与之相反，它与spark SQL无关

在spark中，通常在使用贴图之前执行过滤操作，以确保地图是可能的

在map（）之前执行filter（）的原因是只处理必要的数据

回答你的问题

val base = sc.parallelize(Seq(1, 2, 3, 4, 5, 6, 7))    
println(base.filter { _.==(7) }.count())
println(base.filter { !_.==(7) }.count())

第一行将给出过滤的结果，第二行将给出过滤的值的数量。如果您处理的是缓存和分区的数据，那么这可以有效地完成