Apache spark 火花流输入速率下降_Apache Spark_Spark Streaming

Apache spark 火花流输入速率下降

apache-spark

Apache spark 火花流输入速率下降,apache-spark,spark-streaming,Apache Spark,Spark Streaming,运行Spark流作业时，我不止一次遇到以下行为。处理开始得很好：每个批次的处理时间远远低于批次间隔。然后突然，输入速率下降到接近零即使程序能够跟上进度，而且执行速度大大降低，这种情况也会发生。我相信，当没有太多未处理的数据时，会出现下降，但由于速度太低，这些最终记录占用了运行作业所需的大部分时间。有没有办法避免这种情况并加快速度我将PySpark与Spark 1.6.2一起使用，并将直接方法用于Kafka流媒体背压打开，并且maxRatePerPartition的值为100。在旧的spark

运行Spark流作业时，我不止一次遇到以下行为。处理开始得很好：每个批次的处理时间远远低于批次间隔。然后突然，输入速率下降到接近零

即使程序能够跟上进度，而且执行速度大大降低，这种情况也会发生。我相信，当没有太多未处理的数据时，会出现下降，但由于速度太低，这些最终记录占用了运行作业所需的大部分时间。有没有办法避免这种情况并加快速度

我将PySpark与

Spark 1.6.2

一起使用，并将直接方法用于Kafka流媒体

背压

打开，并且maxRatePerPartition的值为100。

在旧的spark流媒体版本中，设置背压更有意义，在旧的spark流媒体版本中，您需要接收者使用流媒体中的消息。从Spark 1.3开始，您采用了接收器较少的“直接”方法，以确保更强的端到端保证。所以，您不需要担心背压，因为spark会进行大部分微调

spark.streaming.backpressure.enabled

enabled吗？@YuvalItzchakov是的，它是。禁用它，它是它认为压力大于你的系统所能处理的副产品。