Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 加窗分组聚合中的水印技术_Apache Spark_Spark Streaming - Fatal编程技术网

Apache spark 加窗分组聚合中的水印技术

Apache spark 加窗分组聚合中的水印技术,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我正在阅读,有一个关于基于事件时间的数据处理的查询。我附上了文档链接中的一个屏幕截图,显示数据甚至在事件发生之前就已经被处理。12:21事件在12:10-12:20的窗口中处理。图像是对的还是我错了 在12:13有一个迟到的事件,也是猫头鹰。我想12:10-12:20的时间范围显示了这一点 我预期的12:21猫头鹰事件应该出现在12:20-12:30或12:15-12:25的时间范围内。然而,这些都没有显示在图表中在12:13有一个晚事件,也是owl。我想12:10-12:20的时间范围显示了这

我正在阅读,有一个关于基于事件时间的数据处理的查询。我附上了文档链接中的一个屏幕截图,显示数据甚至在事件发生之前就已经被处理。12:21事件在12:10-12:20的窗口中处理。图像是对的还是我错了


在12:13有一个迟到的事件,也是猫头鹰。我想12:10-12:20的时间范围显示了这一点


我预期的12:21猫头鹰事件应该出现在12:20-12:30或12:15-12:25的时间范围内。然而,这些都没有显示在图表中

在12:13有一个晚事件,也是owl。我想12:10-12:20的时间范围显示了这一点


我预期的12:21猫头鹰事件应该出现在12:20-12:30或12:15-12:25的时间范围内。但是,当您使用实时数据时,这些数据不会显示在图形中,可能存在延迟到达数据的情况,并且必须对早期窗口数据执行此数据的计算。在这种情况下,早期窗口数据的结果存储在内存中,然后与延迟到达数据聚合。但是,由于历史数据存储在内存中,直到丢失的数据到达为止,这可能会导致更高的内存消耗,从而导致内存累积。在这些场景中,Spark streaming具有水印的特性,该特性在延迟到达的数据超过阈值时丢弃该数据


在某些情况下,由于放弃这些值,业务结果可能不匹配。为了避免此类问题,必须实现自定义功能来检查数据的时间戳,然后将其存储在HDFS或任何云本机对象存储系统中,以对数据执行批计算,而不是应用水印功能。此实现会导致复杂性。

处理实时数据时,可能会出现延迟到达数据的情况,并且必须对早期窗口数据执行此数据的计算。在这种情况下,早期窗口数据的结果存储在内存中,然后与延迟到达数据聚合。但是,由于历史数据存储在内存中,直到丢失的数据到达为止,这可能会导致更高的内存消耗,从而导致内存累积。在这些场景中,Spark streaming具有水印的特性,该特性在延迟到达的数据超过阈值时丢弃该数据


在某些情况下,由于放弃这些值,业务结果可能不匹配。为了避免此类问题,必须实现自定义功能来检查数据的时间戳,然后将其存储在HDFS或任何云本机对象存储系统中,以对数据执行批计算,而不是应用水印功能。这个实现会导致复杂性。

我上面的查询有什么错误吗?我无法理解12:21事件是如何在12:10-12:20窗口中处理的。谢谢,我上面的问题有什么错吗?我无法理解12:21事件是如何在12:10-12:20窗口中处理的。谢谢