Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 导入与安装spark_Apache Spark_Intellij Idea_Sbt - Fatal编程技术网

Apache spark 导入与安装spark

Apache spark 导入与安装spark,apache-spark,intellij-idea,sbt,Apache Spark,Intellij Idea,Sbt,我是新的火花世界,并在某种程度上编码 这个问题似乎太基本了,但请澄清我的困惑 我知道我们必须导入spark库来编写spark应用程序。我使用intellij和sbt。 在编写应用程序之后,我还可以运行它们,并在“run”上查看输出 我的问题是,如果我可以将spark作为库导入并运行它们,为什么要在我的机器(本地)上单独安装它们。 另外,由于我们只需提交jar文件,而且jvm已经存在于clustor的所有机器中,所以需要在集群上安装它吗 谢谢你的帮助 我理解你的困惑 事实上,如果您正在scala/

我是新的火花世界,并在某种程度上编码

这个问题似乎太基本了,但请澄清我的困惑

我知道我们必须导入spark库来编写spark应用程序。我使用intellij和sbt。 在编写应用程序之后,我还可以运行它们,并在“run”上查看输出

我的问题是,如果我可以将spark作为库导入并运行它们,为什么要在我的机器(本地)上单独安装它们。 另外,由于我们只需提交jar文件,而且jvm已经存在于clustor的所有机器中,所以需要在集群上安装它吗


谢谢你的帮助

我理解你的困惑

事实上,如果您正在
scala/java
上运行spark,并且您可以将spark core或任何其他依赖项导入到您的项目中,并且一旦您在mainClass上启动spark作业,它将在您的机器上创建一个独立的spark runner,并在if(
local[*]上运行您的作业,那么实际上您并不需要在您的机器上安装spark

在本地机器上使用spark有很多原因

其中一个用于在pyspark上运行spark作业,该作业需要spark/python/etc库和运行程序(本地[]或远程[])

另一个原因可能是,如果您想在前提下运行您的工作

在本地数据中心上创建集群可能会更容易,并且可能会指定您的计算机为主计算机,而将连接到主计算机的其他计算机指定为辅助计算机。(此解决方案可能有点幼稚,但您要求提供基础知识,因此这可能会激发您的好奇心,以便更多地了解数据处理系统的基础结构设计)