Hadoop 如果工作节点上未安装Spark(在纱线上),如何启动Spark执行器?

Hadoop 如果工作节点上未安装Spark(在纱线上),如何启动Spark执行器?,hadoop,apache-spark,yarn,Hadoop,Apache Spark,Yarn,我有一个关于Apache Spark在集群模式下运行的问题。根据,Spark本身不必安装在集群中的每个(工作)节点上。我的问题是Spark执行器:一般来说,资源管理器应该决定资源分配。因此,可以在集群中的任何(工作)节点上随机启动Spark执行器。但是,如果Spark未安装在任何(工作)节点上,那么Spark执行器如何由Thread启动?在较高级别上,当Spark应用程序在Thread上启动时 将在其中一个纱线容器中创建应用程序母版(特定于火花的) 火花工(执行者)使用的其他纱线容器 Spark

我有一个关于Apache Spark在集群模式下运行的问题。根据,Spark本身不必安装在集群中的每个(工作)节点上。我的问题是Spark执行器:一般来说,资源管理器应该决定资源分配。因此,可以在集群中的任何(工作)节点上随机启动Spark执行器。但是,如果Spark未安装在任何(工作)节点上,那么Spark执行器如何由Thread启动?

在较高级别上,当Spark应用程序在Thread上启动时

  • 将在其中一个纱线容器中创建应用程序母版(特定于火花的
  • 火花工(执行者)使用的其他纱线容器
  • Spark驱动程序将把序列化操作(代码)传递给执行者,以处理数据

    spark assembly提供与spark相关的JAR,以在计算机上运行spark作业 纱线簇和应用将有其自身的功能相关 罐子


    编辑:(2017-01-04)

    Spark 2.0生产不再需要fat组装罐 部署


    谢谢你的回答。我确实知道纱线容器。据我所知,执行器(实际上是一个进程)是“在”容器中启动的。但执行器本身仍然是一个特定于Spark的组件。因此,我的问题是:如果Spark未安装在任何工作节点上,如何启动Spark执行器(在纱线容器中)?是的!执行器是一个进程,所有的计算逻辑都将通过spark驱动程序传递给它。其他jar(如spark assembly)将在应用程序启动时通过将其移动到HDFS(这是一个自动化过程)对所有工作人员可用。是的,没错,但在特定情况下如何工作?这是否意味着特别是spark assembly jar(包含应用程序的所有相关依赖项)如果工作节点上未安装Spark,则需要启动Spark Executor?true。。spark assembly提供与spark相关的JAR来在纱线集群上运行spark作业,应用程序将有自己的功能相关JAR。执行者需要以某种方式使spark运行时可用。这可以通过在节点上安装,也可以随应用程序一起提供,例如,在一个打包Spark的胖罐子中。我认为……您不必在fatjar/uberjar中包含二进制文件——它是由spark submit自动交付的。