Apache spark 导入与安装spark_Apache Spark_Intellij Idea_Sbt

Apache spark 导入与安装spark

apache-spark intellij-idea sbt

Apache spark 导入与安装spark,apache-spark,intellij-idea,sbt,Apache Spark,Intellij Idea,Sbt,我是新的火花世界，并在某种程度上编码这个问题似乎太基本了，但请澄清我的困惑我知道我们必须导入spark库来编写spark应用程序。我使用intellij和sbt。在编写应用程序之后，我还可以运行它们，并在“run”上查看输出我的问题是，如果我可以将spark作为库导入并运行它们，为什么要在我的机器（本地）上单独安装它们。另外，由于我们只需提交jar文件，而且jvm已经存在于clustor的所有机器中，所以需要在集群上安装它吗谢谢你的帮助我理解你的困惑事实上，如果您正在scala/

我是新的火花世界，并在某种程度上编码

这个问题似乎太基本了，但请澄清我的困惑

我知道我们必须导入spark库来编写spark应用程序。我使用intellij和sbt。在编写应用程序之后，我还可以运行它们，并在“run”上查看输出

我的问题是，如果我可以将spark作为库导入并运行它们，为什么要在我的机器（本地）上单独安装它们。另外，由于我们只需提交jar文件，而且jvm已经存在于clustor的所有机器中，所以需要在集群上安装它吗

谢谢你的帮助

我理解你的困惑

事实上，如果您正在

scala/java

上运行spark，并且您可以将spark core或任何其他依赖项导入到您的项目中，并且一旦您在mainClass上启动spark作业，它将在您的机器上创建一个独立的spark runner，并在if（

local[*]上运行您的作业，那么实际上您并不需要在您的机器上安装spark

）

在本地机器上使用spark有很多原因

其中一个用于在pyspark上运行spark作业，该作业需要spark/python/etc库和运行程序（本地[]或远程[]）

另一个原因可能是，如果您想在前提下运行您的工作

在本地数据中心上创建集群可能会更容易，并且可能会指定您的计算机为主计算机，而将连接到主计算机的其他计算机指定为辅助计算机。（此解决方案可能有点幼稚，但您要求提供基础知识，因此这可能会激发您的好奇心，以便更多地了解数据处理系统的基础结构设计）