SparkR的安装
我有R-3.2.1的最新版本。现在我想在R上安装SparkR。执行后:SparkR的安装,r,apache-spark,sparkr,R,Apache Spark,Sparkr,我有R-3.2.1的最新版本。现在我想在R上安装SparkR。执行后: > install.packages("SparkR") 我回来了: Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’ (as ‘lib’ is unspecified) Warning in install.packages : package ‘SparkR’ is not available (for R versi
> install.packages("SparkR")
我回来了:
Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’
(as ‘lib’ is unspecified)
Warning in install.packages :
package ‘SparkR’ is not available (for R version 3.2.1)
我还在我的机器上安装了Spark
Spark 1.4.0
如何解决此问题?您可以直接从GitHub存储库安装:
if (!require('devtools')) install.packages('devtools')
devtools::install_github('apache/spark@v2.x.x', subdir='R/pkg')
您应该选择与您使用的Spark版本相对应的标签(v2.x.x
)。您可以通过以下方式在R上或直接从R中找到标签的完整列表:
如果您从R下载了二进制软件包,则库位于R/lib/SparkR
子目录中。它可以直接用于安装SparkR
。例如:
$ export SPARK_HOME=/path/to/spark/directory
$ cd $SPARK_HOME/R/pkg/
$ R -e "devtools::install('.')"
您还可以将R库添加到.libpath
(取自):
最后,您可以使用sparkR
shell,无需任何额外步骤:
$ /path/to/spark/directory/bin/sparkR
编辑
根据未来CRAN上应提供的:
使用Apache Spark发行版构建的独立可安装软件包。我们将很快提交给CRAN
你可以跟着检查进度
编辑2
虽然SPARK-15799已被合并,但满足CRAN要求被证明是一项挑战(例如,请参见关于,)的讨论),随后这些包已被删除(例如,请参见)。因此,原始帖子中列出的方法仍然是最可靠的解决方案
编辑3
好的,又回到CRAN上了,v2.4.1<代码>安装。软件包('SparkR')应该可以再次工作(镜像可能需要几天才能反映这一点)SparkR不仅需要一个R软件包,还需要一个完整的Spark后端。当您想要升级SparkR时,您正在升级Spark,而不仅仅是R包。如果你想使用SparkR,那么这篇博文可能会帮助你 不过应该说:现在你可能想参考Sparkyr软件包,因为它使所有这些都变得容易多了
install.packages("devtools")
devtools::install_github("rstudio/sparklyr")
library(sparklyr)
spark_install(version = "1.6.2")
spark_install(version = "2.0.0")
它还提供了比SparkR更多的功能,并且为
dplyr
提供了一个非常好的界面 在使用Spark 2.0.0在EMR中使用SparkR时,我也遇到了类似的问题。我将在这里发布我安装rstudio server、SparkR、SPARKRYR并最终连接到EMR集群中的spark会话所遵循的步骤:
yum安装
sudo yum安装--nogpgcheck rstudio-server-rhel-0.99.903-x86_64.rpm
最后添加一个用户以访问rstudio web控制台,如下所示:
sudo su
sudouseradd用户名
sudo echo用户名:密码| chpasswd
要访问rstudio Web控制台,您需要创建一个从您的机器到EMR主节点的SSH隧道,如下所示:
ssh-NL 8787:ec2 emr主节点ip.compute-1.amazonaws.com:8787hadoop@ec2-emr-master-node-ip.compute-1.amazonaws.com&
现在打开任何浏览器,键入localhost:8787
进入rstudio Web控制台,使用username:password
组合登录
要安装所需的R软件包,需要先将libcurl
安装到主节点中,如下所示:
sudoyum更新
sudo yum-y安装libcurl-devel
通过以下方式解决权限问题:
sudo-u hdfs hadoop fs-mkdir/user/
sudo-u hdfs hadoop fs-chown/user/
检查EMR中的Spark版本并设置Spark\u HOME
:
spark提交--版本
export SPARK_HOME='/usr/lib/SPARK/'
现在在rstudio控制台中安装SparkR,如下所示:
install.packages('devtools'))
devtools::install\u github('apache/spark@v2.0.0“,subdir='R/pkg')
install.packages('sparklyr')
图书馆(SparkR)
图书馆(年)
Sys.setenv(SPARK_HOME='/usr/lib/SPARK')
sc现在,SparkR的2.1.2和2.3.0版现已在的存储库中提供,您可以按如下方式安装2.3.0版:
install.packages("https://cran.r-project.org/src/contrib/Archive/SparkR/SparkR_2.3.0.tar.gz", repos = NULL, type="source")
注意:您必须首先从下载并安装相应版本的Apache Spark,以便软件包正常工作。相关内容:感谢您分享有关升级startegy的信息!谢谢你的意见。我也将更新到最新版本。还要注意,上面没有安装文档。据我所知,您需要克隆回购协议,SparkR
不再在CRAN中。
install.packages("devtools")
devtools::install_github("rstudio/sparklyr")
library(sparklyr)
spark_install(version = "1.6.2")
spark_install(version = "2.0.0")
install.packages("https://cran.r-project.org/src/contrib/Archive/SparkR/SparkR_2.3.0.tar.gz", repos = NULL, type="source")