Apache spark spark结构化流中的日志记录_Apache Spark_Spark Structured Streaming

Apache spark spark结构化流中的日志记录

apache-spark

Apache spark spark结构化流中的日志记录,apache-spark,spark-structured-streaming,Apache Spark,Spark Structured Streaming,我能够开发一个管道，从卡夫卡读取数据并进行一些转换，然后将输出写入卡夫卡接收器和parque接收器。我想添加有效的日志记录来记录转换的中间结果，就像在常规流应用程序中一样我看到的一个选项是通过 df.queryExecution.analyzed.numberedTreeString 或但是，这似乎无法查看流所运行的特定于业务的消息有没有办法添加更多的日志信息，比如它正在处理的数据？我找到了一些跟踪相同信息的选项。基本上，我们可以使用df.writeStream.format（“拼花”

我能够开发一个管道，从卡夫卡读取数据并进行一些转换，然后将输出写入卡夫卡接收器和parque接收器。我想添加有效的日志记录来记录转换的中间结果，就像在常规流应用程序中一样

我看到的一个选项是通过

df.queryExecution.analyzed.numberedTreeString

或

但是，这似乎无法查看流所运行的特定于业务的消息

有没有办法添加更多的日志信息，比如它正在处理的数据？

我找到了一些跟踪相同信息的选项。基本上，我们可以使用df.writeStream.format（“拼花”）命名流式查询 .queryName（“表1”）

查询名称表1将根据Spark UI中的已完成作业列表打印在Spark作业选项卡中，您可以从中跟踪每个流式查询的状态

2）在结构化流媒体中使用ProgressReporter API收集更多统计信息

logger.info("Query progress"+ query.lastProgress)
logger.info("Query status"+ query.status)