Hadoop docker中的火花与纱线簇_Hadoop_Apache Spark_Yarn

Hadoop docker中的火花与纱线簇

hadoop apache-spark

Hadoop docker中的火花与纱线簇,hadoop,apache-spark,yarn,Hadoop,Apache Spark,Yarn,我以独立模式（在EclipseIDE中）使用spark项目。下面是我使用的一些代码（运行良好）到目前为止，我将此应用程序包装为一个jar，并在另一个java项目中使用现在我要将其更改为多用户的纱线群集模式。因此，我在docker中安装了hadoop集群，并使用此图像（）我想它已经设置了纱线配置。我还需要做更多的事情吗我应该如何设置sparkConf？如何传递hadoop ip、我的应用程序jar和其他需要的信息你读过官方配置吗？如果您使用的是spark 1.6，我建议您使用sequen

我以独立模式（在EclipseIDE中）使用spark项目。下面是我使用的一些代码（运行良好）

到目前为止，我将此应用程序包装为一个jar，并在另一个java项目中使用

现在我要将其更改为多用户的纱线群集模式。因此，我在docker中安装了hadoop集群，并使用此图像（）

我想它已经设置了纱线配置。我还需要做更多的事情吗

我应该如何设置sparkConf？如何传递hadoop ip、我的应用程序jar和其他需要的信息

你读过官方配置吗？如果您使用的是spark 1.6，我建议您使用sequenceiq/spark image。它有Hadoop和Spark。他们还提供了如何在纱线簇模式下运行spark submit的示例。您需要不同的主机：

setMaster（“纱线”）

。Spark应该从环境变量HADOOP_CONF获取纱线簇配置_DIR@J.Done完全一样。使用spark submit时，需要声明jar和主类的名称。一旦编译完成，Scala和Java在这方面就没有区别了regard@J.Done我提交spark scala应用程序已经有一段时间了。。我就是这样做的。我很确定这是怎么做到的。如果您还没有，您应该查看spark编程指南（特别是）您是否阅读了官方配置？如果您使用的是spark 1.6，我建议您使用sequenceiq/spark image。它有Hadoop和Spark。他们还提供了如何在纱线簇模式下运行spark submit的示例。您需要不同的主机：

setMaster（“纱线”）

val conf = new SparkConf()
.setAppName("My Application")
.setMaster("local[*]") 
.set("spark.executor.memory", "4g")
.set("spark.driver.memory", "4g")

SparkSession.builder
.config(conf)
.appName("spark app")
.config("spark.sql.warehouse.dir", "file:///.")
.getOrCreate()
}