Python Spark Streaming drop复制并仅保留每个键的第一条记录_Python_Apache Spark_Pyspark_Spark Streaming_Spark Structured Streaming

Python Spark Streaming drop复制并仅保留每个键的第一条记录

python apache-spark pyspark

Python Spark Streaming drop复制并仅保留每个键的第一条记录,python,apache-spark,pyspark,spark-streaming,spark-structured-streaming,Python,Apache Spark,Pyspark,Spark Streaming,Spark Structured Streaming,我正在研究Spark结构化流媒体。我的输入流数据如下所示： id | col0 | col1 | ... 有时，具有相同id的行在~5分钟内到达。我只想保留第一个，删除迟到的重复的。我还想每一分钟写一次输出，只要有一行新的id出现。Spark Streaming中有dropDuplicate和withWatermark函数，但我认为如果使用水印，Spark会等待水印过期，因此不适合此用例。有什么好办法可以做到这一点吗

我正在研究Spark结构化流媒体。我的输入流数据如下所示：

id | col0 | col1 | ...

有时，具有相同

id

的行在~5分钟内到达。我只想保留第一个，删除迟到的重复的。我还想每一分钟写一次输出，只要有一行新的

id

出现。Spark Streaming中有

dropDuplicate

和

withWatermark

函数，但我认为如果使用水印，Spark会等待水印过期，因此不适合此用例。有什么好办法可以做到这一点吗