Java 如何将sparkcontext连接到纱线上的CDH 6_Java_Apache Spark_Yarn_Cloudera

Java 如何将sparkcontext连接到纱线上的CDH 6

java apache-spark

Java 如何将sparkcontext连接到纱线上的CDH 6,java,apache-spark,yarn,cloudera,Java,Apache Spark,Yarn,Cloudera,我正试图在CDH6社区版本上从远程计算机上运行java的简单mllib函数（fpgrowth）默认情况下，我尝试这样连接： `SparkConf conf = new SparkConf().setAppName("FPGrowth").setMaster("spark://some ip:7077").set("spark.cores.max", "10");` 但连接失败，我也检查了netstat-plnt，7077端口上没有程序监听是否有新的方式连接cdh 6上的sparkconte

我正试图在CDH6社区版本上从远程计算机上运行java的简单mllib函数（fpgrowth）

默认情况下，我尝试这样连接：

`SparkConf conf = new SparkConf().setAppName("FPGrowth").setMaster("spark://some ip:7077").set("spark.cores.max", "10");`

但连接失败，我也检查了netstat-plnt，7077端口上没有程序监听

是否有新的方式连接cdh 6上的sparkcontext？我想它现在已经集成到了纱线中，但我该如何连接到t并生成sparkcontext呢

感谢

不幸的是，在Spark中从本地模式切换到群集模式并不是那么容易，但这是一个有据可查的过程。您还必须确保您的文件（如果您使用任何文件）可以从集群的每个执行节点访问，方法可能是将它们放在HDF上

首先必须确保在运行代码的机器上配置了Hadoop的客户端，然后才能执行代码

通常，您将使用

spark submit

，如下所示：

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    --queue thequeue \
    examples/jars/spark-examples*.jar \
    10

但您也应该能够像这样执行它：

SparkSession spark = SparkSession.builder()
    .appName("app")
    .master("yarn")
    .getOrCreate();

您将在以下位置找到更多详细信息：.

在Spark中从本地模式切换到群集模式很不幸不是那么容易，但这是一个有详细记录的过程。您还必须确保您的文件（如果您使用任何文件）可以从集群的每个执行节点访问，方法可能是将它们放在HDF上

首先必须确保在运行代码的机器上配置了Hadoop的客户端，然后才能执行代码

通常，您将使用

spark submit

，如下所示：

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    --queue thequeue \
    examples/jars/spark-examples*.jar \
    10

但您也应该能够像这样执行它：

SparkSession spark = SparkSession.builder()
    .appName("app")
    .master("yarn")
    .getOrCreate();

您将在以下位置找到更多详细信息：