Performance 火花减速的原因_Performance_Apache Spark

Performance 火花减速的原因

performance apache-spark

Performance 火花减速的原因,performance,apache-spark,Performance,Apache Spark,我们已经注意到，我们的Spark最近没有跟上数据的步伐，而且有时会出现停滞。数据量在过去几周内增加了几百%，但是服务器上的负载似乎很小我们应该调查的可能原因是什么？增加吞吐量的第一步是什么我们的日志显示，总延迟时间从某一点开始增加：在那之后，它再也没有下降，我们不得不重新部署Spark的工作，之后Spark很快就赶上了滞后。这种行为的原因可能是什么用这么短的细节很难猜出问题所在。从快照上看，总延迟似乎在增加，即批处理时间比批间隔时间增加。可能有很多原因。我建议添加更多详细信息。@Nac

我们已经注意到，我们的Spark最近没有跟上数据的步伐，而且有时会出现停滞。数据量在过去几周内增加了几百%，但是服务器上的负载似乎很小

我们应该调查的可能原因是什么？增加吞吐量的第一步是什么

我们的日志显示，总延迟时间从某一点开始增加：

在那之后，它再也没有下降，我们不得不重新部署Spark的工作，之后Spark很快就赶上了滞后。这种行为的原因可能是什么

用这么短的细节很难猜出问题所在。从快照上看，总延迟似乎在增加，即批处理时间比批间隔时间增加。可能有很多原因。我建议添加更多详细信息。@NachiketKate您需要什么详细信息，我将添加它们？我发现特别有趣的是，为什么Spark在重启后会赶上。批执行细分细节、执行器数量及其利用率、Spark并发性等细节将有助于确定问题。我认为，当批处理时间开始增加时，您应该查看批处理的详细信息，这可以显示完成批处理所花费的时间最长的组件。看看是否在其他批次中也看到类似的趋势。当您重新启动spark时，它可能会赶上，因为分配了新的资源，但您是否在一段时间后面临类似的问题？