Java apachespark流媒体中的非关联聚合

Java apachespark流媒体中的非关联聚合,java,hadoop,apache-spark,spark-streaming,Java,Hadoop,Apache Spark,Spark Streaming,我试图在apache spark streaming上用Java构建一个实用层,用户可以在一段时间内聚合数据(使用spark中的窗口函数),但似乎所有可用选项都需要关联函数(使用两个参数)。然而,对于一些相当常见的用例,如平均温度传感器值超过一小时等,spark API似乎不可能实现 有没有其他方法可以实现这种功能?我正在考虑实施重复的交互式查询来实现这一点,但速度太慢。统计汇总(平均值、方差)实际上是关联的,可以在线计算。有关执行此操作的良好数值方法,请参见 关于参数的数量,请记住,您在参数中

我试图在apache spark streaming上用Java构建一个实用层,用户可以在一段时间内聚合数据(使用spark中的窗口函数),但似乎所有可用选项都需要关联函数(使用两个参数)。然而,对于一些相当常见的用例,如平均温度传感器值超过一小时等,spark API似乎不可能实现

有没有其他方法可以实现这种功能?我正在考虑实施重复的交互式查询来实现这一点,但速度太慢。

统计汇总(平均值、方差)实际上是关联的,可以在线计算。有关执行此操作的良好数值方法,请参见

关于参数的数量,请记住,您在参数中输入的类型是您自己选择的。可以使用元组在其中一个参数中嵌套多个参数


最后,您还可以将有状态信息用于。

avg=sum/count,其中sum和count是关联的。关联性使您能够并行化操作。您需要在并行、分布式框架中使用它,就像Spark一样。您正在考虑哪些情况?我们的用例是拥有一个自动警报系统,如果平均传感器数据(超过一小时)超过阈值,我们将发送电子邮件。