Ubuntu 从Pyspark访问HDFS失败
我已经在Ubuntu 17.04上安装了Hadoop 2.7.3和pyspark 2.2.0 Hadoop和Pypark似乎都能独立正常工作。但是,我没有在Pyspark中从HDFS获取文件。当我尝试从HDFS获取文件时,出现以下错误: 我在另一篇文章中读到,需要设置环境变量HADOOP_CONF_DIR来访问HDFS。我也这样做了(见下一个屏幕截图),但随后我又出现了一个错误,Pyspark不再工作 如果我删除环境变量,一切都会像以前一样工作Ubuntu 从Pyspark访问HDFS失败,ubuntu,hadoop,apache-spark,pyspark,hdfs,Ubuntu,Hadoop,Apache Spark,Pyspark,Hdfs,我已经在Ubuntu 17.04上安装了Hadoop 2.7.3和pyspark 2.2.0 Hadoop和Pypark似乎都能独立正常工作。但是,我没有在Pyspark中从HDFS获取文件。当我尝试从HDFS获取文件时,出现以下错误: 我在另一篇文章中读到,需要设置环境变量HADOOP_CONF_DIR来访问HDFS。我也这样做了(见下一个屏幕截图),但随后我又出现了一个错误,Pyspark不再工作 如果我删除环境变量,一切都会像以前一样工作 如何解决在Pyspark中从HDFS打开文件的
如何解决在Pyspark中从HDFS打开文件的问题?我在这方面花了很长时间,非常感谢您的帮助 虽然这个答案有点晚,但您应该使用
hdfs:///test/PySpark.txt
(注意三个/
s) 虽然这个答案有点晚,但您应该使用hdfs:///test/PySpark.txt
(注意三个/
s)