Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ruby-on-rails-4/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark “是否有”的模式;“后视过滤器”;在Apache Spark?_Apache Spark_Iot - Fatal编程技术网

Apache spark “是否有”的模式;“后视过滤器”;在Apache Spark?

Apache spark “是否有”的模式;“后视过滤器”;在Apache Spark?,apache-spark,iot,Apache Spark,Iot,我偶然发现了一些似乎需要使用“回溯”功能过滤数据的工作负载——主要是在物联网场景中,传感器可以产生垃圾数据,并检测到有必要查看该传感器以前的记录 Spark的filter()操作显然是“仅元素”——事实上,RDD作为一个整体无法知道您希望它查看的元素的顺序。因此需要另一种方法 我的天真方法包括在传感器上键入RDD,对其进行重新分区,使键和分区成为一个整体,并对键/分区的所有元素进行排序,使它们按时间顺序排列。然后,我们可以使用一个用户函数进行过滤,并可能将数据发回,以便管道的其余部分可以根据需要

我偶然发现了一些似乎需要使用“回溯”功能过滤数据的工作负载——主要是在物联网场景中,传感器可以产生垃圾数据,并检测到有必要查看该传感器以前的记录

Spark的
filter()
操作显然是“仅元素”——事实上,RDD作为一个整体无法知道您希望它查看的元素的顺序。因此需要另一种方法

我的天真方法包括在传感器上键入RDD,对其进行重新分区,使键和分区成为一个整体,并对键/分区的所有元素进行排序,使它们按时间顺序排列。然后,我们可以使用一个用户函数进行过滤,并可能将数据发回,以便管道的其余部分可以根据需要处理它

然而,这看起来很重,而且可能效率低下。还有更惯用的方法吗

摘要:是否有与Spark相关的设计模式来处理需要“回望”序列中前一个元素的过滤任务?