Apache spark 火花流的动态簇变化

Apache spark 火花流的动态簇变化,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我是Spark的新手,对其随时间动态变化的能力感到好奇,我的主要兴趣是Spark的流媒体功能 据我所知,流部分在输入(数据流)创建后立即结束,从该部分开始,它就是处理数据的核心Spark引擎 我主要关心的是集群的dunamics,在代码Spark中,集群可以在每次启动/计划批处理协同计算时更新。但是流应该由设置的间隔调用 我的问题是集群有多灵活?如果我使用集群管理器作为Zookeeper,我发现(现在找不到引用)工作节点可以与Zookeeper动态关联。但SparkContext是否灵活连接?群

我是Spark的新手,对其随时间动态变化的能力感到好奇,我的主要兴趣是Spark的流媒体功能

据我所知,流部分在输入(数据流)创建后立即结束,从该部分开始,它就是处理数据的核心Spark引擎

我主要关心的是集群的dunamics,在代码Spark中,集群可以在每次启动/计划批处理协同计算时更新。但是流应该由设置的间隔调用

我的问题是集群有多灵活?如果我使用集群管理器作为Zookeeper,我发现(现在找不到引用)工作节点可以与Zookeeper动态关联。但SparkContext是否灵活连接?群集中是否可以有多个SparkContext,并且可以动态添加/删除它们


编辑:我试图实现的是一个动态集群,假设我在数据上运行一个机器学习算法,首先我必须只运行一个算法,其中延迟的持续时间为1秒,因此我启动一个持续时间为1秒的StreamContext,之后我想添加另一个算法,但我需要5秒的超时,我的问题是,我是否可以将第二个StreamContext动态添加到集群中(而不是停止整个集群的执行)。

您能把问题说得更清楚吗?我试着读了好几遍,但我不明白你担心的是什么你想达到什么目的?动态添加/删除是什么意思?@Markon嗨,谢谢你尝试帮助我添加了一个编辑,并提供了一个更详细的示例。请看一下,我很乐意回答更多问题。你不是刚创建了两个不同的工作吗?你可以看看这里:@Markon嗨,谢谢你的回答。这非常有帮助。为每一条流做不同的工作不是很浪费吗?当然,这是一个可能的解决方案,但我希望我只能为每个作业定义一个StreamContext,并为所有算法分配所有核心。你能把你的问题弄清楚吗?我试着读了好几遍,但我不明白你担心的是什么你想达到什么目的?动态添加/删除是什么意思?@Markon嗨,谢谢你尝试帮助我添加了一个编辑,并提供了一个更详细的示例。请看一下,我很乐意回答更多问题。你不是刚创建了两个不同的工作吗?你可以看看这里:@Markon嗨,谢谢你的回答。这非常有帮助。为每一条流做不同的工作不是很浪费吗?当然这是一个可能的解决方案,但我希望我只能为每个作业定义一个StreamContext,并为所有算法分配所有核心。