Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 火花流输入速率下降_Apache Spark_Spark Streaming - Fatal编程技术网

Apache spark 火花流输入速率下降

Apache spark 火花流输入速率下降,apache-spark,spark-streaming,Apache Spark,Spark Streaming,运行Spark流作业时,我不止一次遇到以下行为。处理开始得很好:每个批次的处理时间远远低于批次间隔。然后突然,输入速率下降到接近零 即使程序能够跟上进度,而且执行速度大大降低,这种情况也会发生。我相信,当没有太多未处理的数据时,会出现下降,但由于速度太低,这些最终记录占用了运行作业所需的大部分时间。有没有办法避免这种情况并加快速度 我将PySpark与Spark 1.6.2一起使用,并将直接方法用于Kafka流媒体背压打开,并且maxRatePerPartition的值为100。在旧的spark

运行Spark流作业时,我不止一次遇到以下行为。处理开始得很好:每个批次的处理时间远远低于批次间隔。然后突然,输入速率下降到接近零

即使程序能够跟上进度,而且执行速度大大降低,这种情况也会发生。我相信,当没有太多未处理的数据时,会出现下降,但由于速度太低,这些最终记录占用了运行作业所需的大部分时间。有没有办法避免这种情况并加快速度


我将PySpark与
Spark 1.6.2
一起使用,并将直接方法用于Kafka流媒体
背压
打开,并且maxRatePerPartition的值为100。

在旧的spark流媒体版本中,设置背压更有意义,在旧的spark流媒体版本中,您需要接收者使用流媒体中的消息。从Spark 1.3开始,您采用了接收器较少的“直接”方法,以确保更强的端到端保证。所以,您不需要担心背压,因为spark会进行大部分微调

spark.streaming.backpressure.enabled
enabled吗?@YuvalItzchakov是的,它是。禁用它,它是它认为压力大于你的系统所能处理的副产品。