远程火花;JAVAHDFS(Apache Spark(2.4.4) 安装程序
我有ApacheSpark(2.4.4),运行在Linux(Ubuntu 18.04.3 LTS(GNU/Linux 4.15.0-65-generic x86_64))上 我还让hadoop(hdfs)在同一个Linux机器上运行。(主机名:ikarakas.fritz.box,IP:192.168.188.76) 我的驱动程序应用程序(Java;1.8.0_73)在Mac机上 下面是我的驱动程序应用程序的一些摘录远程火花;JAVAHDFS(Apache Spark(2.4.4) 安装程序,java,apache-spark,hadoop,hdfs,Java,Apache Spark,Hadoop,Hdfs,我有ApacheSpark(2.4.4),运行在Linux(Ubuntu 18.04.3 LTS(GNU/Linux 4.15.0-65-generic x86_64))上 我还让hadoop(hdfs)在同一个Linux机器上运行。(主机名:ikarakas.fritz.box,IP:192.168.188.76) 我的驱动程序应用程序(Java;1.8.0_73)在Mac机上 下面是我的驱动程序应用程序的一些摘录 public void startUp() { System.out.
public void startUp() {
System.out.println(getNowISO() + "-----TEST: startUp");
String sparkMaster = "ikarakas.fritz.box";
SparkConf conf = new SparkConf().setAppName("Ilker's Analyzer")
.setMaster("spark://" + sparkMaster + ":7077");
spark = SparkSession
.builder()
.config(conf)
.config("spark.sql.session.timeZone", "UTC")
.getOrCreate();
l16DataSet = spark.read().json("hdfs://192.168.188.76:9000/user/hadoop/l16data.json");
// ...
}
问题
我的应用程序永远无法完成spark.read.json(…)语句
当我检查Spark Web作业监控界面时,我看到我的作业卡在该行号上;例如
org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:325)
spark.Analyzer.startUp(Analyzer.java:67)
spark.Analyzer.test(Analyzer.java:365)
spark.Analyzer.main(Analyzer.java:396)
我所要做的就是,在远程主机上运行我的作业,作为其中的一部分,能够从hdfs加载文件
有什么想法吗?
谢谢您的
核心站点.xml中的fs.default.name
值是多少?它是hdfs://192.168.188.76:9000
?没有。我正在监听所有接口;事实就是如此hdfs://0.0.0.0:9000fs.default.name
(或较新版本中的fs.defaultFS
)是默认文件系统的名称。其方案和权限决定文件系统实现的URI。datanodes用于查找NameNode的URL,在您的核心站点.xml
中fs.default.name
的值是多少hdfs://192.168.188.76:9000
?没有。我正在监听所有接口;事实就是如此hdfs://0.0.0.0:9000fs.default.name
(或较新版本中的fs.defaultFS
)是“默认文件系统的名称。其方案和权限决定文件系统实现的URI。”datanodes用于查找NameNode的URL,