Apache spark 如何在Spark 3.0中运行hadoop命令?
我在mac os上使用brew安装了使用Hadoop 3.2预构建的Spark 3.0。我可以运行sparkshell命令,但当我运行hadoop命令时,我发现command not found错误Apache spark 如何在Spark 3.0中运行hadoop命令?,apache-spark,hadoop,Apache Spark,Hadoop,我在mac os上使用brew安装了使用Hadoop 3.2预构建的Spark 3.0。我可以运行sparkshell命令,但当我运行hadoop命令时,我发现command not found错误 如果我必须在安装完以上内容后单独安装hadoop,这是否意味着我的系统上安装了两个相同版本的hadoop?或者我必须卸载使用hadoop预构建的spark,然后在不使用hadoop的情况下重新安装spark,并找出如何将spark连接到hadoop?要运行hadoop命令或任何其他hadoop组件,
如果我必须在安装完以上内容后单独安装hadoop,这是否意味着我的系统上安装了两个相同版本的hadoop?或者我必须卸载使用hadoop预构建的spark,然后在不使用hadoop的情况下重新安装spark,并找出如何将spark连接到hadoop?要运行hadoop命令或任何其他hadoop组件,您需要显式安装hadoop 也许可以帮助你在Mac OS上安装hadoop 对最新问题的答复 您将不会有两个不同的Hadoop版本。
换言之,您的Spark 3.0是使用Hadoop 3.2构建的,这意味着您的Spark与Hadoop 3.2兼容,但这并不意味着您的Hadoop打包在Spark二进制文件中,或者它将自动安装在Spark安装中,您需要显式安装Hadoop 3.2。因为它们是两个不同的软件包。
对于Hadoop的HDFS和Spark之间的连接,可以设置一个环境变量
export Hadoop_CONF_DIR=/your/Hadoop/CONF/DIR
(Linux命令)。然后,您的spark作业将开始引用您的hadoop配置,并根据连接到hadoop的配置来确定。
例如,post配置此代码
sparkSession.read.text(“/hdfsfile.txt”)
将从Hadoop的HDFS中读取。Hi,您可以重新查看答案。更新。