Java spark远程开发环境
我想开发远程spark环境 机器是我的开发机器,java,eclipse,Windows10 我还有另外一台机器已经安装了cloduera(纱线上的火花) 我试过这个Java spark远程开发环境,java,apache-spark,Java,Apache Spark,我想开发远程spark环境 机器是我的开发机器,java,eclipse,Windows10 我还有另外一台机器已经安装了cloduera(纱线上的火花) 我试过这个 String appName = "test" + new Date(System.currentTimeMillis()); String master = "spark://*:6066"; String host = "*"; String jar = "C:\\Users\\default.
String appName = "test" + new Date(System.currentTimeMillis());
String master = "spark://*:6066";
String host = "*";
String jar = "C:\\Users\\default.DESKTOP-0BP338U\\Desktop\\workspace\\workspace_study\\spark-start-on-yarn\\target\\spark-start-on-yarn-0.0.1-SNAPSHOT.jar";
SparkConf conf = new SparkConf().setAppName(appName).setMaster(master)
.set("spark.driver.host", host)
.setJars(new String[]{jar});
JavaSparkContext sc = new JavaSparkContext(conf);
但连接被拒绝
如何在我的A机器上开发和测试spark程序
我添加了环境变量 这是我的密码
SparkConf conf = new SparkConf()
.setAppName(new Date(System.currentTimeMillis()).toString())
.setMaster("yarn");
JavaSparkContext sc = new JavaSparkContext(conf);
List<Integer> data = Arrays.asList(1,2,3,4,1,2,3,4,5,1,4,1,1,1,4,2,2,4,1,1,3,4,2,3);
JavaRDD<Integer> distData = sc.parallelize(data);
JavaPairRDD<Integer, Integer> pairs = distData.mapToPair(s -> new Tuple2<Integer, Integer>(s, 1));
JavaPairRDD<Integer, Integer> counts = pairs.reduceByKey((a, b) -> a + b);
System.out.println("================= " + counts);
sc.close();
sc.stop();
SparkConf conf=new SparkConf()
.setAppName(新日期(System.currentTimeMillis()).toString())
.setMaster(“纱线”);
JavaSparkContext sc=新的JavaSparkContext(conf);
列表数据=数组.asList(1,2,3,4,1,2,3,4,5,1,4,1,1,1,4,2,2,4,1,1,1,3,4,2,3);
javarddistdata=sc.parallelize(数据);
javapairrdpairs=distData.mapToPair(s->newtuple2(s,1));
javapairdd counts=pairs.reduceByKey((a,b)->a+b);
System.out.println(“============================”+计数);
sc.close();
sc.停止();
错误是“SparkException:Cloud未解析主URL:'纱线'”
我错过了什么?请帮帮我…你需要
Hadoop\u CONF\u DIR
配置文件HADOOP\u CONF\u DIR
environment变量。或者,如果这不起作用,那么可以将XML文件放在src/main/resources
文件夹中,将它们包含在类路径中setMaster(“纱线客户端”)
HADOOP_CONF_DIR
或warn_CONF_DIR
指向包含HADOOP集群(客户端)配置文件的目录。这些配置用于写入HDFS并连接到Thread ResourceManager)
/user
文件夹。这是HDFS权限所必需的您也不需要
setJars()
。您的应用程序应自行连接并运行 纱线上的火花。。。那你为什么不把大师设定成纱线呢?@circket\u 007谢谢。我在windows机器(用于开发)中设置了环境变量HADOOP_CONF_DIR和Thread_CONF_DIR。setMaster(“***”)中的哪种纱线地址:端口?它不是地址:端口。它的字面意思是“纱线”。阅读第一个链接try纱线客户端
?你说得对!它通过了资源管理器连接,我遇到了hadoop权限错误。我将遵循步骤4。非常感谢你。你是我的第一个火花英雄:):):):)也许HADOOP_CONF_DIR
只用于spark submit
。。。最近还没有真正测试过这些