Java apachespark流媒体中的非关联聚合_Java_Hadoop_Apache Spark_Spark Streaming

Java apachespark流媒体中的非关联聚合

java hadoop apache-spark

Java apachespark流媒体中的非关联聚合,java,hadoop,apache-spark,spark-streaming,Java,Hadoop,Apache Spark,Spark Streaming,我试图在apache spark streaming上用Java构建一个实用层，用户可以在一段时间内聚合数据（使用spark中的窗口函数），但似乎所有可用选项都需要关联函数（使用两个参数）。然而，对于一些相当常见的用例，如平均温度传感器值超过一小时等，spark API似乎不可能实现有没有其他方法可以实现这种功能？我正在考虑实施重复的交互式查询来实现这一点，但速度太慢。统计汇总（平均值、方差）实际上是关联的，可以在线计算。有关执行此操作的良好数值方法，请参见关于参数的数量，请记住，您在参数中

我试图在apache spark streaming上用Java构建一个实用层，用户可以在一段时间内聚合数据（使用spark中的窗口函数），但似乎所有可用选项都需要关联函数（使用两个参数）。然而，对于一些相当常见的用例，如平均温度传感器值超过一小时等，spark API似乎不可能实现

有没有其他方法可以实现这种功能？我正在考虑实施重复的交互式查询来实现这一点，但速度太慢。

统计汇总（平均值、方差）实际上是关联的，可以在线计算。有关执行此操作的良好数值方法，请参见

关于参数的数量，请记住，您在参数中输入的类型是您自己选择的。可以使用元组在其中一个参数中嵌套多个参数

最后，您还可以将有状态信息用于。

avg=sum/count，其中sum和count是关联的。关联性使您能够并行化操作。您需要在并行、分布式框架中使用它，就像Spark一样。您正在考虑哪些情况？我们的用例是拥有一个自动警报系统，如果平均传感器数据（超过一小时）超过阈值，我们将发送电子邮件。