Python 如何使用结构化流媒体根据pyspark中的连续事件对数据进行计数和分组
我从卡夫卡那里收到连续不断的温度数据。我根据以下温度范围对数据进行分类Python 如何使用结构化流媒体根据pyspark中的连续事件对数据进行计数和分组,python,pyspark-sql,spark-structured-streaming,Python,Pyspark Sql,Spark Structured Streaming,我从卡夫卡那里收到连续不断的温度数据。我根据以下温度范围对数据进行分类 Timestamp alertType 5/1/2019 10:01:10 MEDIUM 5/1/2019 10:01:11 MEDIUM 5/1/2019 10:01:12 MEDIUM 5/1/2019 10:01:13 MEDIUM 5/1/2019 10:01:14 MEDIUM 5/1/2019 10:01:15 NORMAL 5/1/2019 10:01:16 HIGH
Timestamp alertType
5/1/2019 10:01:10 MEDIUM
5/1/2019 10:01:11 MEDIUM
5/1/2019 10:01:12 MEDIUM
5/1/2019 10:01:13 MEDIUM
5/1/2019 10:01:14 MEDIUM
5/1/2019 10:01:15 NORMAL
5/1/2019 10:01:16 HIGH
5/1/2019 10:01:17 HIGH
5/1/2019 10:01:18 HIGH
5/1/2019 10:01:19 MEDIUM
如何使用pyspark窗口函数以一定的滑动间隔(1秒)获得输出。如果连续计数的数量高于阈值,则我希望触发警报
Timestamp alertType Count
5/1/2019 10:01:14 MEDIUM 5
5/1/2019 10:01:15 NORMAL 1
5/1/2019 10:01:18 HIGH 3
5/1/2019 10:01:19 MEDIUM 1
有没有其他方法可以通过结构化流媒体实现“滞后”功能