Apache spark SystemML是否从HDFS加载文件?

Apache spark SystemML是否从HDFS加载文件?,apache-spark,systemml,Apache Spark,Systemml,如何从systemML DSL中的HDFS加载csv文件 我试了一些,比如: X = read("hdfs://ip-XXX-XXX-XXX-XXX:9000/SystemML/data/NN_X_100_10.csv"); 我检查了文件是否位于这个HDFS位置 当我通过以下方式运行dsl时: $SPARK_HOME/bin/spark-submit ~/Nearest_Neighbour_Search/SystemML/systemml-0.14.0-incubating.jar -f ~

如何从systemML DSL中的HDFS加载csv文件

我试了一些,比如:

X = read("hdfs://ip-XXX-XXX-XXX-XXX:9000/SystemML/data/NN_X_100_10.csv");
我检查了文件是否位于这个HDFS位置

当我通过以下方式运行dsl时:

 $SPARK_HOME/bin/spark-submit ~/Nearest_Neighbour_Search/SystemML/systemml-0.14.0-incubating.jar -f ~/Nearest_Neighbour_Search/SystemML/Task03_NN_SystemML_1000_hdfs.dml
它抱怨说:

ERROR:/home/ubuntu/Nearest_Neighbour_Search/SystemML/Task03_NN_SystemML_1000_hdfs.dml -- line 1, column 0 -- Read input file does not exist on FS (local mode): hdfs://ip-172-30-4-168:9000/SystemML/data/NN_X_1000000_1000.csv
        at org.apache.sysml.api.DMLScript.executeScript(DMLScript.java:367)
        at org.apache.sysml.api.DMLScript.main(DMLScript.java:214)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:738)
        at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
        at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
    Caused by: org.apache.sysml.parser.LanguageException: Invalid Parameters : ERROR: /home/ubuntu/Nearest_Neighbour_Search/SystemML/Task03_NN_SystemML_1000_hdfs.dml -- line 1, column 0 -- Read input file does not exist on FS (local mode): hdfs://ip-172-30-4-168:9000/SystemML/data/NN_X_1000000_1000.csv
        at org.apache.sysml.parser.Expression.raiseValidateError(Expression.java:549)
        at org.apache.sysml.parser.DataExpression.validateExpression(DataExpression.java:641)
        at org.apache.sysml.parser.StatementBlock.validate(StatementBlock.java:592)
        at org.apache.sysml.parser.DMLTranslator.validateParseTree(DMLTranslator.java:143)
        at org.apache.sysml.api.DMLScript.execute(DMLScript.java:591)
        at org.apache.sysml.api.DMLScript.executeScript(DMLScript.java:353)
        ... 10 more
我认为问题与本地模式有关,但我不知道如何设置以支持systemML的HDFS

非常感谢您的任何建议


谢谢

没错,它与本地模式有关,更具体地说是默认文件系统实现(即core site.xml中的fs.defaultFS)。SystemML 0.14(及以前的版本,请参阅)中存在一个错误,导致所有本地读取使用独立于指定文件方案的已配置默认FS实现。hadoop JAR包含使用本地模式和本地文件系统实现的默认配置

这里有两个选项:

  • 升级:由于这个bug已经在SystemML master中修复(以及任何即将发布的版本),您只需从头开始构建或者使用现有的快照工件()
  • 解决方法:作为一种解决方法,您可以将csv文件放入本地文件系统,只需在read语句中使用相对或绝对文件路径

  • 谢谢你的回答!我试过新的版本,它成功了!