Apache spark 流媒体:滚动窗口与微博客
流处理中5秒的翻滚窗口与微批次处理时5秒的微批次有何不同?两者都有一个5秒的非重叠窗口,在此期间它们处理记录,然后继续Apache spark 流媒体:滚动窗口与微博客,apache-spark,spark-streaming,apache-flink,flink-streaming,stream-processing,Apache Spark,Spark Streaming,Apache Flink,Flink Streaming,Stream Processing,流处理中5秒的翻滚窗口与微批次处理时5秒的微批次有何不同?两者都有一个5秒的非重叠窗口,在此期间它们处理记录,然后继续 我知道流处理中有时间的概念:事件、摄取和处理时间。我们是否可以推断,使用微博客的流处理只不过是使用具有摄取时间或处理时间的翻滚窗口的流处理?经过进一步研究,我的结论如下 就我所知,Spark至少1.6的早期版本(请随意更正),流处理的概念基于微批次,其中流处理作为批次的特例进行处理,因此流可以在有限(非常小)时间段的微批次中处理 Tumbling window是演化流处理模型
我知道流处理中有时间的概念:事件、摄取和处理时间。我们是否可以推断,使用微博客的流处理只不过是使用具有摄取时间或处理时间的翻滚窗口的流处理?经过进一步研究,我的结论如下
- 就我所知,Spark至少1.6的早期版本(请随意更正),流处理的概念基于微批次,其中流处理作为批次的特例进行处理,因此流可以在有限(非常小)时间段的微批次中处理
- Tumbling window是演化流处理模型的一部分(其中数据不断进入一个巨大的无界表,而批处理被视为流处理的一种特殊情况),它通过以下方式工作:
- 挡住无限大的窗户/桌子的“过去”
- 然后期待在未来的有限时间内(比如10秒)将入站数据发送到这个巨大的窗口
- 处理它
- 返回到步骤1
- Martin Klepmann设计数据密集型应用程序
在我看来,它们之间最大的区别是目的。Spark中的微补丁用于限制源数据的消耗。但是Flink中的窗口用于处理数据,它们是在阅读之后创建的,因此它们不会真正影响消费者阅读的速度。也有结构化流媒体,在您的问题范围之内还是之外?