Pyspark Spark Structured Streaming—输入速率剧增,但处理速率仍然不变

Pyspark Spark Structured Streaming—输入速率剧增,但处理速率仍然不变,pyspark,databricks,spark-structured-streaming,azure-eventhub,azure-databricks,Pyspark,Databricks,Spark Structured Streaming,Azure Eventhub,Azure Databricks,我正在Databricks中运行Spark结构化流媒体作业。它有一个Azure Eventhub作为源。当我查看查询图时,我看到以下内容: 输入速率有很大的峰值,但处理速率并没有真正对这些峰值做出反应。但从输出结果来看,似乎没有未处理/跳过某些消息 对这种行为有何解释 编辑: 更长的时间帧图片 可以看出,在每秒记录数较低的范围内,输入速率和处理速率同时达到峰值。。但根据图表,当输入处理峰值过大时,Spark无法跟上 您能再检查一下图表吗?它只显示了23:03的数据。可能您的数据仍在处理中,橙色

我正在Databricks中运行Spark结构化流媒体作业。它有一个Azure Eventhub作为源。当我查看查询图时,我看到以下内容:

输入速率有很大的峰值,但处理速率并没有真正对这些峰值做出反应。但从输出结果来看,似乎没有未处理/跳过某些消息

对这种行为有何解释

编辑: 更长的时间帧图片
可以看出,在每秒记录数较低的范围内,输入速率和处理速率同时达到峰值。。但根据图表,当输入处理峰值过大时,Spark无法跟上


您能再检查一下图表吗?它只显示了23:03的数据。可能您的数据仍在处理中,橙色曲线在23.03之后出现峰值(取决于您的处理逻辑)?请记住,spark structured streaming分批处理传入的数据。@cronoik EDIT-添加了更长的时间框架图。我对Azure一无所知,但您能在不关闭流媒体应用程序的情况下关闭eventhub吗?如果可能的话,您能否检查spark停止处理记录需要多长时间?我问这个问题是因为我还没有找到他们如何计算处理记录的资源。