Java spark远程开发环境

Java spark远程开发环境,java,apache-spark,Java,Apache Spark,我想开发远程spark环境 机器是我的开发机器,java,eclipse,Windows10 我还有另外一台机器已经安装了cloduera(纱线上的火花) 我试过这个 String appName = "test" + new Date(System.currentTimeMillis()); String master = "spark://*:6066"; String host = "*"; String jar = "C:\\Users\\default.

我想开发远程spark环境

机器是我的开发机器,java,eclipse,Windows10

我还有另外一台机器已经安装了cloduera(纱线上的火花)

我试过这个

    String appName = "test" + new Date(System.currentTimeMillis());
    String master = "spark://*:6066";
    String host = "*";
    String jar = "C:\\Users\\default.DESKTOP-0BP338U\\Desktop\\workspace\\workspace_study\\spark-start-on-yarn\\target\\spark-start-on-yarn-0.0.1-SNAPSHOT.jar";

    SparkConf conf = new SparkConf().setAppName(appName).setMaster(master)
            .set("spark.driver.host",  host)
            .setJars(new String[]{jar});
    JavaSparkContext sc = new JavaSparkContext(conf);
但连接被拒绝

如何在我的A机器上开发和测试spark程序


我添加了环境变量

这是我的密码

    SparkConf conf = new SparkConf()
            .setAppName(new Date(System.currentTimeMillis()).toString())
            .setMaster("yarn");
    JavaSparkContext sc = new JavaSparkContext(conf);


    List<Integer> data = Arrays.asList(1,2,3,4,1,2,3,4,5,1,4,1,1,1,4,2,2,4,1,1,3,4,2,3);
    JavaRDD<Integer> distData = sc.parallelize(data);

    JavaPairRDD<Integer, Integer> pairs = distData.mapToPair(s -> new Tuple2<Integer, Integer>(s, 1));
    JavaPairRDD<Integer, Integer> counts = pairs.reduceByKey((a, b) -> a + b);

    System.out.println("================= " + counts);

    sc.close();
    sc.stop();
SparkConf conf=new SparkConf()
.setAppName(新日期(System.currentTimeMillis()).toString())
.setMaster(“纱线”);
JavaSparkContext sc=新的JavaSparkContext(conf);
列表数据=数组.asList(1,2,3,4,1,2,3,4,5,1,4,1,1,1,4,2,2,4,1,1,1,3,4,2,3);
javarddistdata=sc.parallelize(数据);
javapairrdpairs=distData.mapToPair(s->newtuple2(s,1));
javapairdd counts=pairs.reduceByKey((a,b)->a+b);
System.out.println(“============================”+计数);
sc.close();
sc.停止();
错误是“SparkException:Cloud未解析主URL:'纱线'”

我错过了什么?请帮帮我…

你需要

  • 下载Hadoop集群的
    Hadoop\u CONF\u DIR
    配置文件

  • 计算机中设置
    HADOOP\u CONF\u DIR
    environment变量。或者,如果这不起作用,那么可以将XML文件放在
    src/main/resources
    文件夹中,将它们包含在类路径中

  • 使用
    setMaster(“纱线客户端”)

  • 确保
    HADOOP_CONF_DIR
    warn_CONF_DIR
    指向包含HADOOP集群(客户端)配置文件的目录。这些配置用于写入HDFS并连接到Thread ResourceManager)

  • 使用您的本地用户名创建一个HDFS
    /user
    文件夹。这是HDFS权限所必需的

  • 开发并最好使用Maven/Gradle来管理Java库。您还需要使用


  • 您也不需要
    setJars()
    。您的应用程序应自行连接并运行

    纱线上的火花。。。那你为什么不把大师设定成纱线呢?@circket\u 007谢谢。我在windows机器(用于开发)中设置了环境变量HADOOP_CONF_DIR和Thread_CONF_DIR。setMaster(“***”)中的哪种纱线地址:端口?它不是地址:端口。它的字面意思是“纱线”。阅读第一个链接try
    纱线客户端
    ?你说得对!它通过了资源管理器连接,我遇到了hadoop权限错误。我将遵循步骤4。非常感谢你。你是我的第一个火花英雄:):):):)也许
    HADOOP_CONF_DIR
    只用于
    spark submit
    。。。最近还没有真正测试过这些