ClouderaHadoop:在HDFS中读取/写入文件

ClouderaHadoop:在HDFS中读取/写入文件,hadoop,filesystems,hdfs,cloudera,Hadoop,Filesystems,Hdfs,Cloudera,我在Cloudera平台上的Spark中运行了这个scala和Java代码,它的简单任务是对HDFS中的文件执行单词计数。我的问题是:使用此代码段读取文件有什么区别- sc.textFile(“hdfs://quickstart.cloudera:8020/user/spark/InputFile/inputText.txt)) 与从本地驱动cloudera平台读取不同 sc.textFile(“/home/cloudera/InputFile/inputext.txt”) 不是在这两种情况下,

我在Cloudera平台上的Spark中运行了这个scala和Java代码,它的简单任务是对HDFS中的文件执行单词计数。我的问题是:使用此代码段读取文件有什么区别-

sc.textFile(“hdfs://quickstart.cloudera:8020/user/spark/InputFile/inputText.txt))

与从本地驱动cloudera平台读取不同

sc.textFile(“/home/cloudera/InputFile/inputext.txt”)

不是在这两种情况下,文件都是使用HDFS保存的,并且读/写两种方式都没有任何区别吗?它们都是读/写HDFS的,对吗?我引用了这条线索,但没有线索。

您能否至少告诉我一个使用hdfs://意味着其他事情的案例

谢谢大家!

据我所知

  • sc.textFile(“hdfs://quickstart.cloudera:8020/user/spark/InputFile/inputText.txt“”
    在此行中hdfs://quickstart.cloudera:8020 指HDFS目录或文件/user/spark/InputFile/inputext.txt
  • sc.textFile(“/home/cloudera/InputFile/inputext.txt”)
    这一行中的“/home/cloudera/InputFile/inputext.txt”指的是本地unix/linux文件系统
所以,如果您想使用/读/写HDFS文件,那么您需要使用hdfs://namenodeHost:port 按照hadoop配置

希望这能澄清你的疑问