Apache spark Spark流媒体应用程序的核心用途_Apache Spark_Spark Streaming_Spark Jobserver

Apache spark Spark流媒体应用程序的核心用途

apache-spark

Apache spark Spark流媒体应用程序的核心用途,apache-spark,spark-streaming,spark-jobserver,Apache Spark,Spark Streaming,Spark Jobserver,我们创建了一个由多个Spark流媒体应用程序组成的系统，每个应用程序都有多个接收器。据我所知，每个接收器在集群中都需要自己的核心。我们需要多个接收器来适应峰值，但我们并不总是需要它们。应用程序非常小，只执行一项任务，以便在集群上（重新）提交它们，而不会分散其他作业和任务的注意力 1）假设我们有5个作业，每个作业有5个接收器，那么集群中至少需要25个内核，只有这些接收器才能运行+内核进行处理。是这样吗 2）是否有可能进行更动态的资源分配，或者一个核心严格地绑定到一个接收器 3）我看了一下sp

我们创建了一个由多个Spark流媒体应用程序组成的系统，每个应用程序都有多个接收器。据我所知，每个接收器在集群中都需要自己的核心。我们需要多个接收器来适应峰值，但我们并不总是需要它们。应用程序非常小，只执行一项任务，以便在集群上（重新）提交它们，而不会分散其他作业和任务的注意力

1）假设我们有5个作业，每个作业有5个接收器，那么集群中至少需要25个内核，只有这些接收器才能运行+内核进行处理。是这样吗

2）是否有可能进行更动态的资源分配，或者一个核心严格地绑定到一个接收器

3）我看了一下spark rest服务器，它提供了在不同作业上共享spark上下文的可能性。你能为所有（~100）份工作提供一个SparkStreamingContext吗

我们在独立模式下运行集群，同时在相同节点上运行Cassandra集群

如果您运行5个不同的Spak应用程序，每个应用程序有5个接收器，则数据摄取将消耗5x5=25个内核。然而，你有没有研究过无接收器的方法？（《公约》第2条）

Spark对纱线和织物有影响，但这关系到执行者，而不是接受者

在一个（数量）较少的应用程序中流水线传输数据似乎是有意义的：如果您有大约100个应用程序，每个应用程序都执行简单的ETL，那么启动和调度这些应用程序可能比运行它们实际执行的处理要花更多的时间。在这一点上我可能是错的，但你不必更具体地说明他们做了什么（也许在另一个问题中，在你做了一点基准测试之后？）

谢谢你的回复。1.如果我们使用卡夫卡，直接方法将是一种选择；-）2.我（在这里询问后）了解到，Spark流媒体尚不支持动态分配。至少不是自动缩放，而是自己实现。3.我们现在在一个Spark应用程序中使用多个线程。到目前为止，这看起来还不错，但我们仍然存在启动任务的开销方面的fews问题。这需要一些优化。