Apache spark Spark直接流并发作业限制_Apache Spark_Concurrency_Streaming_Jobs

Apache spark Spark直接流并发作业限制

apache-spark concurrency streaming

Apache spark Spark直接流并发作业限制,apache-spark,concurrency,streaming,jobs,Apache Spark,Concurrency,Streaming,Jobs,我正在运行来自kafka的spark direct stream，在那里我需要运行许多并发作业，以便及时处理所有数据。在spark中，您可以将spark.streaming.concurrentJobs设置为要运行的多个并发作业我想知道的是一种逻辑方法，用于确定在给定环境中可以运行多少并发作业。对于我公司的隐私问题，我无法告诉您我拥有的规范，但我想知道的是，哪些规范与确定限制相关，为什么当然，另一种选择是，我可以不断增加它并进行测试，然后根据结果进行调整，但我想要一种更符合逻辑的方法，我想真

我正在运行来自kafka的spark direct stream，在那里我需要运行许多并发作业，以便及时处理所有数据。在spark中，您可以将spark.streaming.concurrentJobs设置为要运行的多个并发作业

我想知道的是一种逻辑方法，用于确定在给定环境中可以运行多少并发作业。对于我公司的隐私问题，我无法告诉您我拥有的规范，但我想知道的是，哪些规范与确定限制相关，为什么

当然，另一种选择是，我可以不断增加它并进行测试，然后根据结果进行调整，但我想要一种更符合逻辑的方法，我想真正了解是什么决定了该限制以及原因。

测试不同数量的并发作业并查看总体执行时间是最可靠的方法。但是，我假设最佳值大致等于Runtime.getRuntime.availableProcessors的值

所以我的建议是从可用处理器的数量开始，然后增加和减少1、2和3。然后根据作业数量绘制图表执行时间，您将看到最佳作业数量。

我使用了您的建议，即打印Runtime.getRuntime.availableProcessors。我收到的数字远远高于我需要的数字，但很高兴知道我的上限。经过无数次测试，我得出了一个有意义的数字。谢谢