已安装Spark,但没有命令';hdfs';或';hadoop';建立

已安装Spark,但没有命令';hdfs';或';hadoop';建立,hadoop,apache-spark,hdfs,pyspark,spark-dataframe,Hadoop,Apache Spark,Hdfs,Pyspark,Spark Dataframe,我是pyspark的新用户。 我刚刚下载并安装了一个spark集群(“spark-2.0.2-bin-hadoop2.7.tgz”) 安装后,我想访问文件系统(将本地文件上载到集群)。但当我尝试在命令中键入hadoop或hdfs时,它会显示“找不到命令” 我要安装hadoop/HDFS吗(我以为它是内置在spark中的,我不明白) 提前感谢。您必须先安装hadoop才能访问HDFS。 照此 从apache站点选择最新版本的hadoop。 完成hadoop设置后,转到spark下载此文件,解压缩文

我是pyspark的新用户。 我刚刚下载并安装了一个spark集群(“spark-2.0.2-bin-hadoop2.7.tgz”) 安装后,我想访问文件系统(将本地文件上载到集群)。但当我尝试在命令中键入hadoop或hdfs时,它会显示“找不到命令”

我要安装hadoop/HDFS吗(我以为它是内置在spark中的,我不明白)


提前感谢。

您必须先安装hadoop才能访问HDFS。 照此

从apache站点选择最新版本的hadoop。
完成hadoop设置后,转到spark下载此文件,解压缩文件。在spark env.sh中设置java_home和hadoop_home。

您在类路径上没有
hdfs
hadoop
,因此这就是您收到消息的原因:“未找到任何命令”

如果运行
\yourparh\hadoop-2.7.1\bin\hdfs dfs-ls/
,它应该可以工作并显示根目录内容

但是,您可以将
hadoop/bin
hdfs
hadoop
…)命令添加到类路径,如下所示:

export PATH $PATH:$HADOOP_HOME/bin

其中
HADOOP\u HOME
是您的环境。路径为
hadoop

的变量在安装Spark之前是否安装了hadoop?如果未安装hadoop,则安装了支持Spark的hadoop版本。hadoop命令将不起作用。您可以在独立模式下以及在Apache hadoop之上安装Apache Spark。我认为您是在独立模式下安装的,这就是您无法访问hdfs文件系统的原因。@Bhavesh-Legit!我很愚蠢。非常感谢。我还以为我下载的那本是随附的呢HDFS@css2607是的,你是对的。非常感谢。我要先安装Apache hadoop,然后使用我下载的安装spark cluster吗?谢谢。好的,那么我将安装hadoop。我需要删除当前的spark吗?另一个问题是,如果我想为我的spark群集使用HDFS,我需要为我的所有节点安装hadoop吗?是的,你可以删除旧的spark,我给了你关于单节点spark/hadoop的答案,你需要配置多节点hadoop,然后配置spark。非常感谢!我会尝试一下,看看效果如何!!谢谢,我认为spark安装不附带HDFS。我将尝试下载并安装hadoop,看看它是如何运行的。