Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark结构化流媒体-未聚合数据上的水印_Apache Spark_Spark Structured Streaming_Watermark - Fatal编程技术网

Apache spark Spark结构化流媒体-未聚合数据上的水印

Apache spark Spark结构化流媒体-未聚合数据上的水印,apache-spark,spark-structured-streaming,watermark,Apache Spark,Spark Structured Streaming,Watermark,我正在尝试从结构化流数据集中删除延迟数据 使用spark的withWatermark功能没有任何帮助,并且不会删除最新数据 我的数据集在事件时间列上没有聚合,因此根据sparks的说法,这可能是水印用于状态管理的原因,但我想用它来删除延迟的数据 有没有其他方法可以强制添加水印 在日志中,我看到应用了水印(我在更新水印之前发送数据): 但是旧事件仍然写入结果。我遇到了同样的问题。我在文档中看到,Spark不会删除旧数据。没有。你需要跳出框框思考。有些地方让人失望。 "eventTime" : {

我正在尝试从结构化流数据集中删除延迟数据

使用spark的withWatermark功能没有任何帮助,并且不会删除最新数据

我的数据集在事件时间列上没有聚合,因此根据sparks的说法,这可能是水印用于状态管理的原因,但我想用它来删除延迟的数据

有没有其他方法可以强制添加水印

在日志中,我看到应用了水印(我在更新水印之前发送数据):


但是旧事件仍然写入结果。

我遇到了同样的问题。我在文档中看到,Spark不会删除旧数据。

没有。你需要跳出框框思考。有些地方让人失望。
"eventTime" : {
"avg" : "2020-04-08T14:10:01.532Z",
"max" : "2020-04-12T02:10:01.532Z",
"min" : "2020-04-05T02:10:01.532Z",
"watermark" : "2020-04-09T02:00:01.532Z"
}