Hadoop 在纱线上运行spark机器学习示例失败
启动dfs、Thread和spark后,我在主主机上spark的根目录下运行以下代码:Hadoop 在纱线上运行spark机器学习示例失败,hadoop,apache-spark,yarn,Hadoop,Apache Spark,Yarn,启动dfs、Thread和spark后,我在主主机上spark的根目录下运行以下代码: MASTER=warn./bin/运行示例ml.LogisticRegressionExample\data/mllib/sample\u libsvm\u data.txt 实际上,我从Spark的自述文件中获得了这些代码,下面是关于GitHub上LogisticRegressionExample的源代码: 然后发生错误: 线程“main”org.apache.spark.sql.AnalysisExcep
MASTER=warn./bin/运行示例ml.LogisticRegressionExample\data/mllib/sample\u libsvm\u data.txt
实际上,我从Spark的自述文件中获得了这些代码,下面是关于GitHub上LogisticRegressionExample的源代码:
然后发生错误:
线程“main”org.apache.spark.sql.AnalysisException中的异常:路径不存在:hdfs://master:9000/user/root/data/mllib/sample_libsvm_data.txt;代码>
首先,我不知道为什么它是hdfs://master:9000/user/root
,我确实将namenode的IP地址设置为hdfs://master:9000
,但是为什么spark选择了/user/root
然后,我在集群的每个主机上创建一个目录
/user/root/data/mllib/sample\u libsvm\u data.txt
,希望spark能找到这个文件。但同样的错误再次发生。请告诉我如何修复它。Spark正在HDFS上查找该文件,而不是常规的Linux文件系统。为数据指定的路径(data/mllib/sample\u libsvm\u data.txt)是一个相对路径。在HDFS中,相对路径假定从主目录开始
github上的LogRegExample.scala假设本地执行,而不是线程执行。如果要执行纱线执行,则需要将文件上载到HDFS。@JamCon.Yes,它可以工作。我可以使用
hdfs dfs-put
将数据文件放在hdfs上,而不是运行示例
。当我使用spark submit
提交python脚本时,我使用--files
上传我的数据文件,但是如何在HDFS上指定上传文件的路径?我提交的脚本的总运行时间是否包括上传时间?