Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark直接流并发作业限制_Apache Spark_Concurrency_Streaming_Jobs - Fatal编程技术网

Apache spark Spark直接流并发作业限制

Apache spark Spark直接流并发作业限制,apache-spark,concurrency,streaming,jobs,Apache Spark,Concurrency,Streaming,Jobs,我正在运行来自kafka的spark direct stream,在那里我需要运行许多并发作业,以便及时处理所有数据。在spark中,您可以将spark.streaming.concurrentJobs设置为要运行的多个并发作业 我想知道的是一种逻辑方法,用于确定在给定环境中可以运行多少并发作业。对于我公司的隐私问题,我无法告诉您我拥有的规范,但我想知道的是,哪些规范与确定限制相关,为什么 当然,另一种选择是,我可以不断增加它并进行测试,然后根据结果进行调整,但我想要一种更符合逻辑的方法,我想真

我正在运行来自kafka的spark direct stream,在那里我需要运行许多并发作业,以便及时处理所有数据。在spark中,您可以将spark.streaming.concurrentJobs设置为要运行的多个并发作业

我想知道的是一种逻辑方法,用于确定在给定环境中可以运行多少并发作业。对于我公司的隐私问题,我无法告诉您我拥有的规范,但我想知道的是,哪些规范与确定限制相关,为什么


当然,另一种选择是,我可以不断增加它并进行测试,然后根据结果进行调整,但我想要一种更符合逻辑的方法,我想真正了解是什么决定了该限制以及原因。

测试不同数量的并发作业并查看总体执行时间是最可靠的方法。但是,我假设最佳值大致等于Runtime.getRuntime.availableProcessors的值


所以我的建议是从可用处理器的数量开始,然后增加和减少1、2和3。然后根据作业数量绘制图表执行时间,您将看到最佳作业数量。

我使用了您的建议,即打印Runtime.getRuntime.availableProcessors。我收到的数字远远高于我需要的数字,但很高兴知道我的上限。经过无数次测试,我得出了一个有意义的数字。谢谢