Apache spark spark结构化流中的日志记录

Apache spark spark结构化流中的日志记录,apache-spark,spark-structured-streaming,Apache Spark,Spark Structured Streaming,我能够开发一个管道,从卡夫卡读取数据并进行一些转换,然后将输出写入卡夫卡接收器和parque接收器。我想添加有效的日志记录来记录转换的中间结果,就像在常规流应用程序中一样 我看到的一个选项是通过 df.queryExecution.analyzed.numberedTreeString 或 但是,这似乎无法查看流所运行的特定于业务的消息 有没有办法添加更多的日志信息,比如它正在处理的数据?我找到了一些跟踪相同信息的选项。基本上,我们可以使用df.writeStream.format(“拼花”

我能够开发一个管道,从卡夫卡读取数据并进行一些转换,然后将输出写入卡夫卡接收器和parque接收器。我想添加有效的日志记录来记录转换的中间结果,就像在常规流应用程序中一样

我看到的一个选项是通过

df.queryExecution.analyzed.numberedTreeString 

但是,这似乎无法查看流所运行的特定于业务的消息


有没有办法添加更多的日志信息,比如它正在处理的数据?

我找到了一些跟踪相同信息的选项。基本上,我们可以使用df.writeStream.format(“拼花”)命名流式查询 .queryName(“表1”)

查询名称表1将根据Spark UI中的已完成作业列表打印在Spark作业选项卡中,您可以从中跟踪每个流式查询的状态

2) 在结构化流媒体中使用ProgressReporter API收集更多统计信息

logger.info("Query progress"+ query.lastProgress)
logger.info("Query status"+ query.status)