Scala 擦除旧的Spark结构化流媒体事件时间窗口
我在事件时间窗口中获取聚合数据,但我需要的数据是最新3个窗口中包含的数据。擦除其他我不需要的已处理旧窗口的正确方法是什么Scala 擦除旧的Spark结构化流媒体事件时间窗口,scala,apache-spark,spark-structured-streaming,Scala,Apache Spark,Spark Structured Streaming,我在事件时间窗口中获取聚合数据,但我需要的数据是最新3个窗口中包含的数据。擦除其他我不需要的已处理旧窗口的正确方法是什么 val query = lines .withWatermark("timestamp", "20 seconds") .groupBy(window($"timestamp", "10 seconds"),$"value").count().sort(-$"window") .writeStream .outputMode("complete") .fo
val query = lines
.withWatermark("timestamp", "20 seconds")
.groupBy(window($"timestamp", "10 seconds"),$"value").count().sort(-$"window")
.writeStream
.outputMode("complete")
.format("console")
.start()
我只想看最后3个最新的窗口。过滤掉超过30秒的窗口是否足够好
谢谢