Apache spark 流媒体：滚动窗口与微博客_Apache Spark_Spark Streaming_Apache Flink_Flink Streaming_Stream Processing

Apache spark 流媒体：滚动窗口与微博客

apache-spark apache-flink

Apache spark 流媒体：滚动窗口与微博客,apache-spark,spark-streaming,apache-flink,flink-streaming,stream-processing,Apache Spark,Spark Streaming,Apache Flink,Flink Streaming,Stream Processing,流处理中5秒的翻滚窗口与微批次处理时5秒的微批次有何不同？两者都有一个5秒的非重叠窗口，在此期间它们处理记录，然后继续我知道流处理中有时间的概念：事件、摄取和处理时间。我们是否可以推断，使用微博客的流处理只不过是使用具有摄取时间或处理时间的翻滚窗口的流处理？经过进一步研究，我的结论如下就我所知，Spark至少1.6的早期版本（请随意更正），流处理的概念基于微批次，其中流处理作为批次的特例进行处理，因此流可以在有限（非常小）时间段的微批次中处理 Tumbling window是演化流处理模型

流处理中5秒的翻滚窗口与微批次处理时5秒的微批次有何不同？两者都有一个5秒的非重叠窗口，在此期间它们处理记录，然后继续

我知道流处理中有时间的概念：事件、摄取和处理时间。我们是否可以推断，使用微博客的流处理只不过是使用具有摄取时间或处理时间的翻滚窗口的流处理？

经过进一步研究，我的结论如下

就我所知，Spark至少1.6的早期版本（请随意更正），流处理的概念基于微批次，其中流处理作为批次的特例进行处理，因此流可以在有限（非常小）时间段的微批次中处理
Tumbling window是演化流处理模型的一部分（其中数据不断进入一个巨大的无界表，而批处理被视为流处理的一种特殊情况），它通过以下方式工作：
挡住无限大的窗户/桌子的“过去”
然后期待在未来的有限时间内（比如10秒）将入站数据发送到这个巨大的窗口
处理它
返回到步骤1

因此，作为黑盒的微博客非常类似于翻滚窗口，但区别实际上在于用于实现窗口处理的底层架构/设计/方法

来源：

Martin Klepmann设计数据密集型应用程序

据我所知，从结果的角度来看，它们非常相似。它们将允许处理给定时间段内的部分数据

您对Spark的看法是正确的，由于设计限制，Spark Streaming使用给定的持续时间读取一些非常小的数据

在我看来，它们之间最大的区别是目的。Spark中的微补丁用于限制源数据的消耗。但是Flink中的窗口用于处理数据，它们是在阅读之后创建的，因此它们不会真正影响消费者阅读的速度。

也有结构化流媒体，在您的问题范围之内还是之外？