Python Spark Streaming drop复制并仅保留每个键的第一条记录
我正在研究Spark结构化流媒体。我的输入流数据如下所示:Python Spark Streaming drop复制并仅保留每个键的第一条记录,python,apache-spark,pyspark,spark-streaming,spark-structured-streaming,Python,Apache Spark,Pyspark,Spark Streaming,Spark Structured Streaming,我正在研究Spark结构化流媒体。我的输入流数据如下所示: id | col0 | col1 | ... 有时,具有相同id的行在~5分钟内到达。我只想保留第一个,删除迟到的重复的。我还想每一分钟写一次输出,只要有一行新的id出现。Spark Streaming中有dropDuplicate和withWatermark函数,但我认为如果使用水印,Spark会等待水印过期,因此不适合此用例。有什么好办法可以做到这一点吗
id | col0 | col1 | ...
有时,具有相同id
的行在~5分钟内到达。我只想保留第一个,删除迟到的重复的。我还想每一分钟写一次输出,只要有一行新的id
出现。Spark Streaming中有dropDuplicate
和withWatermark
函数,但我认为如果使用水印,Spark会等待水印过期,因此不适合此用例。有什么好办法可以做到这一点吗