Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 在纱线上运行spark机器学习示例失败_Hadoop_Apache Spark_Yarn - Fatal编程技术网

Hadoop 在纱线上运行spark机器学习示例失败

Hadoop 在纱线上运行spark机器学习示例失败,hadoop,apache-spark,yarn,Hadoop,Apache Spark,Yarn,启动dfs、Thread和spark后,我在主主机上spark的根目录下运行以下代码: MASTER=warn./bin/运行示例ml.LogisticRegressionExample\data/mllib/sample\u libsvm\u data.txt 实际上,我从Spark的自述文件中获得了这些代码,下面是关于GitHub上LogisticRegressionExample的源代码: 然后发生错误: 线程“main”org.apache.spark.sql.AnalysisExcep

启动dfs、Thread和spark后,我在主主机上spark的根目录下运行以下代码:

MASTER=warn./bin/运行示例ml.LogisticRegressionExample\data/mllib/sample\u libsvm\u data.txt

实际上,我从Spark的自述文件中获得了这些代码,下面是关于GitHub上LogisticRegressionExample的源代码:

然后发生错误:

线程“main”org.apache.spark.sql.AnalysisException中的异常:路径不存在:hdfs://master:9000/user/root/data/mllib/sample_libsvm_data.txt;

首先,我不知道为什么它是
hdfs://master:9000/user/root
,我确实将namenode的IP地址设置为
hdfs://master:9000
,但是为什么spark选择了
/user/root


然后,我在集群的每个主机上创建一个目录
/user/root/data/mllib/sample\u libsvm\u data.txt
,希望spark能找到这个文件。但同样的错误再次发生。请告诉我如何修复它。

Spark正在HDFS上查找该文件,而不是常规的Linux文件系统。为数据指定的路径(data/mllib/sample\u libsvm\u data.txt)是一个相对路径。在HDFS中,相对路径假定从主目录开始


github上的LogRegExample.scala假设本地执行,而不是线程执行。如果要执行纱线执行,则需要将文件上载到HDFS。

@JamCon.Yes,它可以工作。我可以使用
hdfs dfs-put
将数据文件放在hdfs上,而不是
运行示例
。当我使用
spark submit
提交python脚本时,我使用
--files
上传我的数据文件,但是如何在HDFS上指定上传文件的路径?我提交的脚本的总运行时间是否包括上传时间?