Apache spark 导入与安装spark
我是新的火花世界,并在某种程度上编码 这个问题似乎太基本了,但请澄清我的困惑 我知道我们必须导入spark库来编写spark应用程序。我使用intellij和sbt。 在编写应用程序之后,我还可以运行它们,并在“run”上查看输出 我的问题是,如果我可以将spark作为库导入并运行它们,为什么要在我的机器(本地)上单独安装它们。 另外,由于我们只需提交jar文件,而且jvm已经存在于clustor的所有机器中,所以需要在集群上安装它吗Apache spark 导入与安装spark,apache-spark,intellij-idea,sbt,Apache Spark,Intellij Idea,Sbt,我是新的火花世界,并在某种程度上编码 这个问题似乎太基本了,但请澄清我的困惑 我知道我们必须导入spark库来编写spark应用程序。我使用intellij和sbt。 在编写应用程序之后,我还可以运行它们,并在“run”上查看输出 我的问题是,如果我可以将spark作为库导入并运行它们,为什么要在我的机器(本地)上单独安装它们。 另外,由于我们只需提交jar文件,而且jvm已经存在于clustor的所有机器中,所以需要在集群上安装它吗 谢谢你的帮助 我理解你的困惑 事实上,如果您正在scala/
谢谢你的帮助 我理解你的困惑 事实上,如果您正在
scala/java
上运行spark,并且您可以将spark core或任何其他依赖项导入到您的项目中,并且一旦您在mainClass上启动spark作业,它将在您的机器上创建一个独立的spark runner,并在if(local[*]上运行您的作业,那么实际上您并不需要在您的机器上安装spark
)
在本地机器上使用spark有很多原因
其中一个用于在pyspark上运行spark作业,该作业需要spark/python/etc库和运行程序(本地[]或远程[])
另一个原因可能是,如果您想在前提下运行您的工作
在本地数据中心上创建集群可能会更容易,并且可能会指定您的计算机为主计算机,而将连接到主计算机的其他计算机指定为辅助计算机。(此解决方案可能有点幼稚,但您要求提供基础知识,因此这可能会激发您的好奇心,以便更多地了解数据处理系统的基础结构设计)