Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/299.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Spark Streaming drop复制并仅保留每个键的第一条记录_Python_Apache Spark_Pyspark_Spark Streaming_Spark Structured Streaming - Fatal编程技术网

Python Spark Streaming drop复制并仅保留每个键的第一条记录

Python Spark Streaming drop复制并仅保留每个键的第一条记录,python,apache-spark,pyspark,spark-streaming,spark-structured-streaming,Python,Apache Spark,Pyspark,Spark Streaming,Spark Structured Streaming,我正在研究Spark结构化流媒体。我的输入流数据如下所示: id | col0 | col1 | ... 有时,具有相同id的行在~5分钟内到达。我只想保留第一个,删除迟到的重复的。我还想每一分钟写一次输出,只要有一行新的id出现。Spark Streaming中有dropDuplicate和withWatermark函数,但我认为如果使用水印,Spark会等待水印过期,因此不适合此用例。有什么好办法可以做到这一点吗

我正在研究Spark结构化流媒体。我的输入流数据如下所示:

id | col0 | col1 | ...
有时,具有相同
id
的行在~5分钟内到达。我只想保留第一个,删除迟到的重复的。我还想每一分钟写一次输出,只要有一行新的
id
出现。Spark Streaming中有
dropDuplicate
withWatermark
函数,但我认为如果使用水印,Spark会等待水印过期,因此不适合此用例。有什么好办法可以做到这一点吗