Apache spark “是否有”的模式;“后视过滤器”;在Apache Spark?
我偶然发现了一些似乎需要使用“回溯”功能过滤数据的工作负载——主要是在物联网场景中,传感器可以产生垃圾数据,并检测到有必要查看该传感器以前的记录 Spark的Apache spark “是否有”的模式;“后视过滤器”;在Apache Spark?,apache-spark,iot,Apache Spark,Iot,我偶然发现了一些似乎需要使用“回溯”功能过滤数据的工作负载——主要是在物联网场景中,传感器可以产生垃圾数据,并检测到有必要查看该传感器以前的记录 Spark的filter()操作显然是“仅元素”——事实上,RDD作为一个整体无法知道您希望它查看的元素的顺序。因此需要另一种方法 我的天真方法包括在传感器上键入RDD,对其进行重新分区,使键和分区成为一个整体,并对键/分区的所有元素进行排序,使它们按时间顺序排列。然后,我们可以使用一个用户函数进行过滤,并可能将数据发回,以便管道的其余部分可以根据需要
filter()
操作显然是“仅元素”——事实上,RDD作为一个整体无法知道您希望它查看的元素的顺序。因此需要另一种方法
我的天真方法包括在传感器上键入RDD,对其进行重新分区,使键和分区成为一个整体,并对键/分区的所有元素进行排序,使它们按时间顺序排列。然后,我们可以使用一个用户函数进行过滤,并可能将数据发回,以便管道的其余部分可以根据需要处理它
然而,这看起来很重,而且可能效率低下。还有更惯用的方法吗
摘要:是否有与Spark相关的设计模式来处理需要“回望”序列中前一个元素的过滤任务?