Python 如何使用结构化流媒体根据pyspark中的连续事件对数据进行计数和分组_Python_Pyspark Sql_Spark Structured Streaming

Python 如何使用结构化流媒体根据pyspark中的连续事件对数据进行计数和分组

python

Python 如何使用结构化流媒体根据pyspark中的连续事件对数据进行计数和分组,python,pyspark-sql,spark-structured-streaming,Python,Pyspark Sql,Spark Structured Streaming,我从卡夫卡那里收到连续不断的温度数据。我根据以下温度范围对数据进行分类 Timestamp alertType 5/1/2019 10:01:10 MEDIUM 5/1/2019 10:01:11 MEDIUM 5/1/2019 10:01:12 MEDIUM 5/1/2019 10:01:13 MEDIUM 5/1/2019 10:01:14 MEDIUM 5/1/2019 10:01:15 NORMAL 5/1/2019 10:01:16 HIGH

我从卡夫卡那里收到连续不断的温度数据。我根据以下温度范围对数据进行分类

Timestamp         alertType
5/1/2019 10:01:10   MEDIUM
5/1/2019 10:01:11   MEDIUM
5/1/2019 10:01:12   MEDIUM
5/1/2019 10:01:13   MEDIUM
5/1/2019 10:01:14   MEDIUM
5/1/2019 10:01:15   NORMAL
5/1/2019 10:01:16   HIGH
5/1/2019 10:01:17   HIGH
5/1/2019 10:01:18   HIGH
5/1/2019 10:01:19   MEDIUM

如何使用pyspark窗口函数以一定的滑动间隔（1秒）获得输出。如果连续计数的数量高于阈值，则我希望触发警报

Timestamp         alertType Count
5/1/2019 10:01:14   MEDIUM  5
5/1/2019 10:01:15   NORMAL  1
5/1/2019 10:01:18   HIGH    3
5/1/2019 10:01:19   MEDIUM  1

有没有其他方法可以通过结构化流媒体实现“滞后”功能