Hadoop 在纱线上运行spark机器学习示例失败_Hadoop_Apache Spark_Yarn

Hadoop 在纱线上运行spark机器学习示例失败

hadoop apache-spark

Hadoop 在纱线上运行spark机器学习示例失败,hadoop,apache-spark,yarn,Hadoop,Apache Spark,Yarn,启动dfs、Thread和spark后，我在主主机上spark的根目录下运行以下代码： MASTER=warn./bin/运行示例ml.LogisticRegressionExample\data/mllib/sample\u libsvm\u data.txt 实际上，我从Spark的自述文件中获得了这些代码，下面是关于GitHub上LogisticRegressionExample的源代码：然后发生错误：线程“main”org.apache.spark.sql.AnalysisExcep

启动dfs、Thread和spark后，我在主主机上spark的根目录下运行以下代码：

MASTER=warn./bin/运行示例ml.LogisticRegressionExample\data/mllib/sample\u libsvm\u data.txt

实际上，我从Spark的自述文件中获得了这些代码，下面是关于GitHub上LogisticRegressionExample的源代码：

然后发生错误：

线程“main”org.apache.spark.sql.AnalysisException中的异常：路径不存在：hdfs://master:9000/user/root/data/mllib/sample_libsvm_data.txt;

首先，我不知道为什么它是

hdfs://master:9000/user/root

，我确实将namenode的IP地址设置为

hdfs://master:9000

，但是为什么spark选择了

/user/root

然后，我在集群的每个主机上创建一个目录

/user/root/data/mllib/sample\u libsvm\u data.txt

，希望spark能找到这个文件。但同样的错误再次发生。请告诉我如何修复它。

Spark正在HDFS上查找该文件，而不是常规的Linux文件系统。为数据指定的路径（data/mllib/sample\u libsvm\u data.txt）是一个相对路径。在HDFS中，相对路径假定从主目录开始

github上的LogRegExample.scala假设本地执行，而不是线程执行。如果要执行纱线执行，则需要将文件上载到HDFS。

@JamCon.Yes，它可以工作。我可以使用

hdfs dfs-put

将数据文件放在hdfs上，而不是

运行示例

。当我使用

spark submit

提交python脚本时，我使用

--files

上传我的数据文件，但是如何在HDFS上指定上传文件的路径？我提交的脚本的总运行时间是否包括上传时间？