Java 将spark jar部署到远程hadoop集群有多简单?
我有Hadoop集群Cloudera CDH 5.2和ApacheSpark 1.5.0 我可以使用cluster的Thread、Spark和HDFS从IntelliJ IDEA或本地PC运行我的应用程序吗Java 将spark jar部署到远程hadoop集群有多简单?,java,scala,hadoop,apache-spark,Java,Scala,Hadoop,Apache Spark,我有Hadoop集群Cloudera CDH 5.2和ApacheSpark 1.5.0 我可以使用cluster的Thread、Spark和HDFS从IntelliJ IDEA或本地PC运行我的应用程序吗 或者我应该通过ftp将jar发送到主节点,并通过spark submit运行它吗?是的,如果遵循以下步骤,您可以直接从IDE运行作业: 将spark Thread包添加到您的项目依赖项中(可以标记为已提供) 将带有hadoop配置(hadoop_CONF_DIR)的目录添加到项目类路径中 将
或者我应该通过ftp将jar发送到主节点,并通过spark submit运行它吗?是的,如果遵循以下步骤,您可以直接从IDE运行作业:
spark Thread
包添加到您的项目依赖项中(可以标记为已提供
)SparkConf sparkConfig = new SparkConf().
.setMaster("yarn-client")
.set("spark.yarn.queue", "if_you_are_using_scheduler")
.set("spark.yarn.jar", "hdfs:///path/to/assembly/on/hdfs");
如果Hadoop是安全部署的,那么还需要
- 将JRE更改为启用JCE的JRE
- 将
添加到java参数(krb5.conf
)-Djava.security.krb5.conf=/path/to/local/krb5.conf
- 在您的环境中调用
kinit