我可以在没有Hadoop的情况下使用Spark作为开发环境吗?

我可以在没有Hadoop的情况下使用Spark作为开发环境吗?,hadoop,apache-spark,filesystems,Hadoop,Apache Spark,Filesystems,我对大数据和相关领域的概念非常陌生,如果我犯了一些错误或打字错误,请原谅 我只想在开发/测试环境中,在我的计算机中理解并使用它。由于Hadoop包括HDFS(Hadoop分布式文件系统)和其他只对分布式系统重要的软件,我可以放弃它吗?如果是这样,我在哪里可以下载不需要Hadoop的Spark版本?我只能找到依赖Hadoop的版本 我需要什么: 在一台计算机(我的家用计算机)上运行Spark的所有功能不会出现问题 我用Spark在电脑中制作的所有东西都应该在未来的集群中运行,不会出现问题 如果

我对大数据和相关领域的概念非常陌生,如果我犯了一些错误或打字错误,请原谅

我只想在开发/测试环境中,在我的计算机中理解并使用它。由于Hadoop包括HDFS(Hadoop分布式文件系统)和其他只对分布式系统重要的软件,我可以放弃它吗?如果是这样,我在哪里可以下载不需要Hadoop的Spark版本?我只能找到依赖Hadoop的版本

我需要什么:
  • 在一台计算机(我的家用计算机)上运行Spark的所有功能不会出现问题
  • 我用Spark在电脑中制作的所有东西都应该在未来的集群中运行,不会出现问题
如果我要在我的计算机上运行Hadoop或任何其他分布式文件系统进行测试,那么我有理由为Spark使用Hadoop或任何其他分布式文件系统吗


请注意,“”与我的问题不同,因为我确实希望在开发环境中运行Spark。

是的,您可以在不使用Hadoop的情况下安装Spark。 查阅Spark官方文件:

大致步骤:

  • 下载预编译spark或下载spark源代码并在本地构建
  • 提取焦油
  • 设置所需的环境变量
  • 运行启动脚本
  • Spark(不含Hadoop)-可在Spark下载页面上获得 网址:


    如果此url不起作用,请尝试从Spark下载页面获取它,这不是对原始问题的正确答案。 对不起,这是我的错


    如果有人想在没有hadoop的情况下运行
    spark
    distribution
    tar.gz

    应设置环境变量。这个
    spark env.sh
    对我有用

    #!/bin/sh
    export SPARK_DIST_CLASSPATH=$(hadoop classpath)
    

    Spark使用Hadoop实用程序与本机文件系统一起工作,所以您可以直接获取并使用它。你有没有试过,但没有成功?你能把这个Spark版本的链接发给我吗?另外,我在阅读Spark文档时犯了一些错误,现在将编辑问题。只需转到主站点并用Hadoop发行版下载即可。@JustinPihony我现在不能使用Hadoop,我的Spark with Hadoop没有编译。没有没有没有Hadoop的版本?这听起来像是另一个问题,为什么它不编译?你能更具体地描述一下“必需的环境变量”吗?我假设它是HADOOP_HOME_DIR,我想知道如何设置它。通过下载HadoopUtils并让HADOOP_HOME_DIR指向Windows,我已经成功地在Windows上进行了开发,但是我应该如何在Linux上设置它呢?我正在一台没有安装Hadoop的Linux服务器上工作。另一台服务器上安装了Hadoop。我应该如何设置HADOOP_HOME_DIR?但这是一个矛盾:“spark-2.2.0-bin-hadoop2.7.tgz”是bin-hadoop2,还有bin-without-HADOOP.tgz选项,所以,这里有点不对劲。这并不能真正回答问题。如果您有不同的问题,可以单击以提问。你也可以提醒大家更多地注意这个问题-