Ubuntu 从Pyspark访问HDFS失败_Ubuntu_Hadoop_Apache Spark_Pyspark_Hdfs

Ubuntu 从Pyspark访问HDFS失败

ubuntu hadoop apache-spark pyspark

Ubuntu 从Pyspark访问HDFS失败,ubuntu,hadoop,apache-spark,pyspark,hdfs,Ubuntu,Hadoop,Apache Spark,Pyspark,Hdfs,我已经在Ubuntu 17.04上安装了Hadoop 2.7.3和pyspark 2.2.0 Hadoop和Pypark似乎都能独立正常工作。但是，我没有在Pyspark中从HDFS获取文件。当我尝试从HDFS获取文件时，出现以下错误：我在另一篇文章中读到，需要设置环境变量HADOOP_CONF_DIR来访问HDFS。我也这样做了（见下一个屏幕截图），但随后我又出现了一个错误，Pyspark不再工作如果我删除环境变量，一切都会像以前一样工作如何解决在Pyspark中从HDFS打开文件的

我已经在Ubuntu 17.04上安装了Hadoop 2.7.3和pyspark 2.2.0

Hadoop和Pypark似乎都能独立正常工作。但是，我没有在Pyspark中从HDFS获取文件。当我尝试从HDFS获取文件时，出现以下错误：

我在另一篇文章中读到，需要设置环境变量HADOOP_CONF_DIR来访问HDFS。我也这样做了（见下一个屏幕截图），但随后我又出现了一个错误，Pyspark不再工作

如果我删除环境变量，一切都会像以前一样工作

如何解决在Pyspark中从HDFS打开文件的问题？我在这方面花了很长时间，非常感谢您的帮助

虽然这个答案有点晚，但您应该使用

hdfs:///test/PySpark.txt

（注意三个

s）

虽然这个答案有点晚，但您应该使用

hdfs:///test/PySpark.txt

（注意三个

s）