Apache spark Spark流媒体应用程序的核心用途
我们创建了一个由多个Spark流媒体应用程序组成的系统,每个应用程序都有多个接收器。据我所知,每个接收器在集群中都需要自己的核心。我们需要多个接收器来适应峰值,但我们并不总是需要它们。应用程序非常小,只执行一项任务,以便在集群上(重新)提交它们,而不会分散其他作业和任务的注意力 1) 假设我们有5个作业,每个作业有5个接收器,那么集群中至少需要25个内核,只有这些接收器才能运行+内核进行处理。是这样吗 2) 是否有可能进行更动态的资源分配,或者一个核心严格地绑定到一个接收器 3) 我看了一下spark rest服务器,它提供了在不同作业上共享spark上下文的可能性。你能为所有(~100)份工作提供一个SparkStreamingContext吗 我们在独立模式下运行集群,同时在相同节点上运行Cassandra集群Apache spark Spark流媒体应用程序的核心用途,apache-spark,spark-streaming,spark-jobserver,Apache Spark,Spark Streaming,Spark Jobserver,我们创建了一个由多个Spark流媒体应用程序组成的系统,每个应用程序都有多个接收器。据我所知,每个接收器在集群中都需要自己的核心。我们需要多个接收器来适应峰值,但我们并不总是需要它们。应用程序非常小,只执行一项任务,以便在集群上(重新)提交它们,而不会分散其他作业和任务的注意力 1) 假设我们有5个作业,每个作业有5个接收器,那么集群中至少需要25个内核,只有这些接收器才能运行+内核进行处理。是这样吗 2) 是否有可能进行更动态的资源分配,或者一个核心严格地绑定到一个接收器 3) 我看了一下sp
谢谢你的回复。1.如果我们使用卡夫卡,直接方法将是一种选择;-)2.我(在这里询问后)了解到,Spark流媒体尚不支持动态分配。至少不是自动缩放,而是自己实现。3.我们现在在一个Spark应用程序中使用多个线程。到目前为止,这看起来还不错,但我们仍然存在启动任务的开销方面的fews问题。这需要一些优化。