Pyspark Spark Structured Streaming—输入速率剧增，但处理速率仍然不变_Pyspark_Databricks_Spark Structured Streaming_Azure Eventhub_Azure Databricks

Pyspark Spark Structured Streaming—输入速率剧增，但处理速率仍然不变

pyspark

Pyspark Spark Structured Streaming—输入速率剧增，但处理速率仍然不变,pyspark,databricks,spark-structured-streaming,azure-eventhub,azure-databricks,Pyspark,Databricks,Spark Structured Streaming,Azure Eventhub,Azure Databricks,我正在Databricks中运行Spark结构化流媒体作业。它有一个Azure Eventhub作为源。当我查看查询图时，我看到以下内容：输入速率有很大的峰值，但处理速率并没有真正对这些峰值做出反应。但从输出结果来看，似乎没有未处理/跳过某些消息对这种行为有何解释编辑：更长的时间帧图片可以看出，在每秒记录数较低的范围内，输入速率和处理速率同时达到峰值。。但根据图表，当输入处理峰值过大时，Spark无法跟上您能再检查一下图表吗？它只显示了23:03的数据。可能您的数据仍在处理中，橙色

我正在Databricks中运行Spark结构化流媒体作业。它有一个Azure Eventhub作为源。当我查看查询图时，我看到以下内容：

输入速率有很大的峰值，但处理速率并没有真正对这些峰值做出反应。但从输出结果来看，似乎没有未处理/跳过某些消息

对这种行为有何解释

编辑： 更长的时间帧图片
可以看出，在每秒记录数较低的范围内，输入速率和处理速率同时达到峰值。。但根据图表，当输入处理峰值过大时，Spark无法跟上

您能再检查一下图表吗？它只显示了23:03的数据。可能您的数据仍在处理中，橙色曲线在23.03之后出现峰值（取决于您的处理逻辑）？请记住，spark structured streaming分批处理传入的数据。@cronoik EDIT-添加了更长的时间框架图。我对Azure一无所知，但您能在不关闭流媒体应用程序的情况下关闭eventhub吗？如果可能的话，您能否检查spark停止处理记录需要多长时间？我问这个问题是因为我还没有找到他们如何计算处理记录的资源。