Apache spark 在Spark流期间有多少服务器正在侦听?
我正在检查集群的配置,我希望通过最小化实际可以访问http协议的机器数量来加强安全性Apache spark 在Spark流期间有多少服务器正在侦听?,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我正在检查集群的配置,我希望通过最小化实际可以访问http协议的机器数量来加强安全性 所以我的问题是:当执行Spark流时(比如通过twitter提要),驱动程序是唯一一个监听流并将数据作为RDD重新分发给执行者的服务器,还是每个执行者都在监听流 Spark Streaming将为Spark Streaming配置期间创建的每个接收器发出长时间运行的任务。这些接收器分配在集群上的某个节点上 如果要指定实例化每个接收器的主机,则必须扩展接收器实现并实现 def preferredLocation:
所以我的问题是:当执行Spark流时(比如通过twitter提要),驱动程序是唯一一个监听流并将数据作为RDD重新分发给执行者的服务器,还是每个执行者都在监听流 Spark Streaming将为Spark Streaming配置期间创建的每个接收器发出长时间运行的任务。这些接收器分配在集群上的某个节点上 如果要指定实例化每个接收器的主机,则必须扩展接收器实现并实现
def preferredLocation: Option[String]
随机选择的工作节点将接收流。@vanekjar,您有源文档吗?有没有办法强制特定服务器接收数据流?您可以添加代码来说明如何设置您的作业?它来自Spark Streaming官方文档:
每个输入数据流创建一个接收单个数据流的接收器(在工作机上运行)
[