Java spark远程开发环境_Java_Apache Spark

Java spark远程开发环境

java apache-spark

Java spark远程开发环境,java,apache-spark,Java,Apache Spark,我想开发远程spark环境机器是我的开发机器，java，eclipse，Windows10 我还有另外一台机器已经安装了cloduera（纱线上的火花）我试过这个 String appName = "test" + new Date(System.currentTimeMillis()); String master = "spark://*:6066"; String host = "*"; String jar = "C:\\Users\\default.

我想开发远程spark环境

机器是我的开发机器，java，eclipse，Windows10

我还有另外一台机器已经安装了cloduera（纱线上的火花）

我试过这个

    String appName = "test" + new Date(System.currentTimeMillis());
    String master = "spark://*:6066";
    String host = "*";
    String jar = "C:\\Users\\default.DESKTOP-0BP338U\\Desktop\\workspace\\workspace_study\\spark-start-on-yarn\\target\\spark-start-on-yarn-0.0.1-SNAPSHOT.jar";

    SparkConf conf = new SparkConf().setAppName(appName).setMaster(master)
            .set("spark.driver.host",  host)
            .setJars(new String[]{jar});
    JavaSparkContext sc = new JavaSparkContext(conf);

但连接被拒绝

如何在我的A机器上开发和测试spark程序

我添加了环境变量

这是我的密码

    SparkConf conf = new SparkConf()
            .setAppName(new Date(System.currentTimeMillis()).toString())
            .setMaster("yarn");
    JavaSparkContext sc = new JavaSparkContext(conf);


    List<Integer> data = Arrays.asList(1,2,3,4,1,2,3,4,5,1,4,1,1,1,4,2,2,4,1,1,3,4,2,3);
    JavaRDD<Integer> distData = sc.parallelize(data);

    JavaPairRDD<Integer, Integer> pairs = distData.mapToPair(s -> new Tuple2<Integer, Integer>(s, 1));
    JavaPairRDD<Integer, Integer> counts = pairs.reduceByKey((a, b) -> a + b);

    System.out.println("================= " + counts);

    sc.close();
    sc.stop();

SparkConf conf=new SparkConf（）
.setAppName（新日期（System.currentTimeMillis（））.toString（））
.setMaster（“纱线”）；
JavaSparkContext sc=新的JavaSparkContext（conf）；
列表数据=数组.asList（1,2,3,4,1,2,3,4,5,1,4,1,1,1,4,2,2,4,1,1,1,3,4,2,3）；
javarddistdata=sc.parallelize（数据）；
javapairrdpairs=distData.mapToPair（s->newtuple2（s，1））；
javapairdd counts=pairs.reduceByKey（（a，b）->a+b）；
System.out.println（“============================”+计数）；
sc.close（）；
sc.停止（）；

错误是“SparkException:Cloud未解析主URL:'纱线'”

我错过了什么？请帮帮我…

你需要

下载Hadoop集群的

Hadoop\u CONF\u DIR

配置文件

在计算机中设置
HADOOP\u CONF\u DIR
environment变量。或者，如果这不起作用，那么可以将XML文件放在
src/main/resources
文件夹中，将它们包含在类路径中

使用
setMaster（“纱线客户端”）
确保
HADOOP_CONF_DIR
或
warn_CONF_DIR
指向包含HADOOP集群（客户端）配置文件的目录。这些配置用于写入HDFS并连接到Thread ResourceManager）

使用您的本地用户名创建一个HDFS
/user
文件夹。这是HDFS权限所必需的

开发并最好使用Maven/Gradle来管理Java库。您还需要使用

您也不需要
setJars（）
。您的应用程序应自行连接并运行
纱线上的火花。。。那你为什么不把大师设定成纱线呢？@circket\u 007谢谢。我在windows机器（用于开发）中设置了环境变量HADOOP_CONF_DIR和Thread_CONF_DIR。setMaster（“***”）中的哪种纱线地址：端口？它不是地址：端口。它的字面意思是“纱线”。阅读第一个链接try
纱线客户端
？你说得对！它通过了资源管理器连接，我遇到了hadoop权限错误。我将遵循步骤4。非常感谢你。你是我的第一个火花英雄：）：）：）：）也许
HADOOP_CONF_DIR
只用于
spark submit
。。。最近还没有真正测试过这些