Apache spark 附加火花&x27;安装';s访问HDFS和Hive

Apache spark 附加火花&x27;安装';s访问HDFS和Hive,apache-spark,cloudera-quickstart-vm,Apache Spark,Cloudera Quickstart Vm,我安装了Cloudera Quickstart VM 5.5.0,并捆绑了Spark v1.5.0。当我启动火花壳时 scala> val data = sc.textFile("/hdfs/path/file.csv") Spark能够读取HDFS(通过使用数据进行验证。首先),即使没有hdfs://namenode:port/URL。 因为我有一个旧版本Spark的用例,即v1.4.0。我已将旧版本安装/卸载到HOME dir 当我尝试做同样的事情时,sc.textFile指向Lin

我安装了Cloudera Quickstart VM 5.5.0,并捆绑了Spark v1.5.0。当我启动火花壳时

scala> val data = sc.textFile("/hdfs/path/file.csv")
Spark能够读取HDFS(通过使用
数据进行验证。首先
),即使没有
hdfs://namenode:port/
URL。 因为我有一个旧版本Spark的用例,即v1.4.0。我已将旧版本安装/卸载到HOME dir

当我尝试做同样的事情时,sc.textFile指向Linux本地文件系统,而不是HDFS。即使没有指定
hdfs://namenode:port/
URL

第二件事是,为了访问配置单元表,我将Hive-site.xml复制到Spark的conf dir。在Spark default安装中执行此操作后,我可以轻松地查询配置单元表:

scala> val orders = sqlContext.sql("SELECT * FROM default.orders")

scala> orders.limit(5).foreach(println)
这将显示行


当我尝试在Spark v1.4上做同样的事情时,我会出错。如何以与默认安装相同的方式访问配置单元表?

在spark类路径中添加hadoop conf目录。sc.textFile在soark-1.5和spark-1中的行为相同。4@shekhar将spark-env.sh复制到原始spark(v1.5)的conf到其他spark(v1.4)中可以吗?检查spark-env.sh中HADOOP_conf_DIR的值,它应该指向您的HADOOP/conf目录