Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/66.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何安装ApacheSpark并使其在R上运行?_R_Hadoop_Apache Spark - Fatal编程技术网

如何安装ApacheSpark并使其在R上运行?

如何安装ApacheSpark并使其在R上运行?,r,hadoop,apache-spark,R,Hadoop,Apache Spark,所以,我对Hadoop和ApacheSpark还很陌生。我是一个新手,正在尝试。因此,首先我了解了hadoop和MapReduce的基本概念,它们是如何产生的,然后是ApacheSpark与hadoop相比有哪些优势(有些优势是在内存和磁盘上处理速度更快),以及多个库使我们的生活更轻松。现在,我正在尝试使用ApacheSpark。为了做到这一点,我假设我必须在我的机器上安装一个名为apachespark的软件 我所做的是安装Oracle Virtual box。然后我安装了流浪汉。现在,我知道在

所以,我对Hadoop和ApacheSpark还很陌生。我是一个新手,正在尝试。因此,首先我了解了hadoop和MapReduce的基本概念,它们是如何产生的,然后是ApacheSpark与hadoop相比有哪些优势(有些优势是在内存和磁盘上处理速度更快),以及多个库使我们的生活更轻松。现在,我正在尝试使用ApacheSpark。为了做到这一点,我假设我必须在我的机器上安装一个名为apachespark的软件

我所做的是安装Oracle Virtual box。然后我安装了流浪汉。现在,我知道在下载vagrant并提取文件和内容之后,我必须运行命令
vagrant up
,它将下载并安装我的虚拟机。然而,我想使用R来使用ApacheSpark。我的意思是,我不懂Python,但我懂R。几天前,我读到Databricks显然已经发布了对R的支持。因为,我是新手,我假设,会有一些shell,我可以在其中键入我的R命令,并使用ApacheSpark进行计算


因此,我不知道如何进行。如果我做了
vagrant up
,我想这将允许我使用ApacheSpark使用python shell。或者这就是未来的发展方向,在这样做之后,我将不得不安装一些额外的库来使用R。

您所说的软件包是SparkR 实际上,您可以在R中导入的软件包很少,并且可以在R中本地使用spark,但是如果您想使用spark Standalone cluster,那么您也必须安装spark。在Spark 1.4.0中,随Spark安装一起嵌入了R软件包,您可以通过将其导入R中直接使用它们

这个新发布的软件包可以从这个位置下载-

现在,您可以使用RStudio或rshell并使用这些行来导入R包-

Sys.setenv(SPARK_HOME="/home/hduser/Downloads/FlareGet/Others/spark-1.4.0-bin-hadoop2.6").libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

library(SparkR)
或者,您可以直接从下载包的bin文件夹运行sparkR shell- 转到bin文件夹并键入命令promt

./sparkR
从这个位置下载软件包-
如何安装Apache spark

请去图书馆

请从2015年7月2日起为Hadoop 2.6及更高版本选择预构建

下载并解压缩该文件

请使用终端,进入下载文件夹,最终进入解压文件夹

cd下载/
cd spark-1.4.0-bin-hadoop2.6

把它拿起来,跑向R

请使用以下命令检查您的目录

ls

您将开始看到文件夹中的文件

CHANGES.txt NOTICE README.md bin data ec2 lib sbin
许可证R发行版conf derby.log示例python

最后,请在终端中键入以下命令以使用spark的R


/bin/sparkR

等等,所以我下载了名为
spark-1.4.0.tgz
的文件。这是一个很小的文件。现在,首先,当我打开它时,没有可以运行的应用程序文件,然后spark将安装。其次,当我运行RStudio时,我必须准确地键入哪些命令?你能用适当的索引建立一个工作代码吗?这将是一个很大的帮助。谢谢