Java 当流数据帧/数据集上存在不带水印的流聚合时,不支持追加输出模式
我有一个卡夫卡流,我加载火花。来自卡夫卡主题的消息具有以下属性:Java 当流数据帧/数据集上存在不带水印的流聚合时,不支持追加输出模式,java,apache-spark,spark-streaming,spark-structured-streaming,Java,Apache Spark,Spark Streaming,Spark Structured Streaming,我有一个卡夫卡流,我加载火花。来自卡夫卡主题的消息具有以下属性:bl_iban,被列入黑名单,时间戳。所以有IBAN,关于IBAN是否被列入黑名单(Y/N)的标志,还有那个记录的时间戳。 问题是一个IBAN可能有多个记录,因为超时的IBAN可能会被列入黑名单或“删除”。我想知道的是,我想知道每个IBAN的当前状态。然而,我从更简单的目标开始,那就是为每个IBAN列出最新的时间戳(之后我还要添加黑名单状态),因此我产生了以下代码(其中黑名单代表我从卡夫卡加载的数据集): 之后,我尝试使用以下代码将
bl_iban
,被列入黑名单
,时间戳
。所以有IBAN,关于IBAN是否被列入黑名单(Y/N)的标志,还有那个记录的时间戳。
问题是一个IBAN可能有多个记录,因为超时的IBAN可能会被列入黑名单或“删除”。我想知道的是,我想知道每个IBAN的当前状态。然而,我从更简单的目标开始,那就是为每个IBAN列出最新的时间戳
(之后我还要添加黑名单
状态),因此我产生了以下代码(其中黑名单代表我从卡夫卡加载的数据集):
之后,我尝试使用以下代码将其打印到控制台:
StreamingQuery query = blackList.writeStream()
.format("console")
.outputMode(OutputMode.Append())
.start();
我已经运行了我的代码,但出现以下错误:
在流式数据帧/数据集上存在不带水印的流式聚合时,不支持追加输出模式
因此,我将水印添加到数据集中,如下所示:
blackList = blackList.withWatermark("timestamp", "2 seconds")
.groupBy("bl_iban")
.agg(col("bl_iban"), max("timestamp"));
然后又犯了同样的错误。
有什么办法可以解决这个问题吗
更新: 在我的帮助下,我设法摆脱了那个错误。但问题是我仍然无法让我的黑名单发挥作用。我可以看到数据是如何从Kafka加载的,但从我的组操作之后,我得到了两个空批,就是这样。 来自卡夫卡的打印数据:
blackList = blackList.groupBy("bl_iban")
.agg(col("bl_iban"), max("timestamp"));
+-----------------------+-----------+-----------------------+
|bl_iban |blacklisted|timestamp |
+-----------------------+-----------+-----------------------+
|SK047047595122709025789|N |2020-04-10 17:26:58.208|
|SK341492788657560898224|N |2020-04-10 17:26:58.214|
|SK118866580129485701645|N |2020-04-10 17:26:58.215|
+-----------------------+-----------+-----------------------+
这就是我如何得到输出的黑名单:
blackList = blackList.selectExpr("split(cast(value as string),',') as value", "cast(timestamp as timestamp) timestamp")
.selectExpr("value[0] as bl_iban", "value[1] as blacklisted", "timestamp");
这是我的集体行动:
Dataset<Row> blackListCurrent = blackList.withWatermark("timestamp", "20 minutes")
.groupBy(window(col("timestamp"), "10 minutes", "5 minutes"), col("bl_iban"))
.agg(col("bl_iban"), max("timestamp"));
Dataset blackListCurrent=blackList.withWatermark(“时间戳”,“20分钟”)
.groupBy(窗口(“时间戳”)、“10分钟”、“5分钟”)、栏(“bl_iban”))
.agg(col(“bl_iban”),max(“timestamp”);
链接到源文件:在Spark中使用水印时,需要确保聚合了解窗口。本文提供了更多的背景知识 在您的例子中,代码应该是这样的
blackList=blackList.withWatermark(“时间戳”,“2秒”)
.groupBy(窗口(“时间戳”)、“10分钟”、“5分钟”)、栏(“bl_iban”))
.agg(col(“bl_iban”),max(“timestamp”);
重要的是,属性
timestamp
具有数据类型timestamp 现在,在使用了你的建议之后,我没有发现这个错误。但一旦我加载了数据(在控制台中输出),并想要输出分组黑名单,我只会得到两个空批,就是这样:(为了回答这个问题,我们需要看看您的数据是什么样子以及您是如何读取的。另外,您是如何将数据输出到控制台的?为什么不改变输出模式?我不知道您对Spark@user207421有多熟悉,但您可以先阅读本文: