Performance 火花减速的原因

Performance 火花减速的原因,performance,apache-spark,Performance,Apache Spark,我们已经注意到,我们的Spark最近没有跟上数据的步伐,而且有时会出现停滞。数据量在过去几周内增加了几百%,但是服务器上的负载似乎很小 我们应该调查的可能原因是什么?增加吞吐量的第一步是什么 我们的日志显示,总延迟时间从某一点开始增加: 在那之后,它再也没有下降,我们不得不重新部署Spark的工作,之后Spark很快就赶上了滞后。这种行为的原因可能是什么 用这么短的细节很难猜出问题所在。从快照上看,总延迟似乎在增加,即批处理时间比批间隔时间增加。可能有很多原因。我建议添加更多详细信息。@Nac

我们已经注意到,我们的Spark最近没有跟上数据的步伐,而且有时会出现停滞。数据量在过去几周内增加了几百%,但是服务器上的负载似乎很小

我们应该调查的可能原因是什么?增加吞吐量的第一步是什么

我们的日志显示,总延迟时间从某一点开始增加:


在那之后,它再也没有下降,我们不得不重新部署Spark的工作,之后Spark很快就赶上了滞后。这种行为的原因可能是什么

用这么短的细节很难猜出问题所在。从快照上看,总延迟似乎在增加,即批处理时间比批间隔时间增加。可能有很多原因。我建议添加更多详细信息。@NachiketKate您需要什么详细信息,我将添加它们?我发现特别有趣的是,为什么Spark在重启后会赶上。批执行细分细节、执行器数量及其利用率、Spark并发性等细节将有助于确定问题。我认为,当批处理时间开始增加时,您应该查看批处理的详细信息,这可以显示完成批处理所花费的时间最长的组件。看看是否在其他批次中也看到类似的趋势。当您重新启动spark时,它可能会赶上,因为分配了新的资源,但您是否在一段时间后面临类似的问题?