Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/65.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
SparkR的安装_R_Apache Spark_Sparkr - Fatal编程技术网

SparkR的安装

SparkR的安装,r,apache-spark,sparkr,R,Apache Spark,Sparkr,我有R-3.2.1的最新版本。现在我想在R上安装SparkR。执行后: > install.packages("SparkR") 我回来了: Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’ (as ‘lib’ is unspecified) Warning in install.packages : package ‘SparkR’ is not available (for R versi

我有R-3.2.1的最新版本。现在我想在R上安装SparkR。执行后:

> install.packages("SparkR")
我回来了:

Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’
(as ‘lib’ is unspecified)
Warning in install.packages :
  package ‘SparkR’ is not available (for R version 3.2.1)
我还在我的机器上安装了Spark

Spark 1.4.0

如何解决此问题?

您可以直接从GitHub存储库安装:

if (!require('devtools')) install.packages('devtools')
devtools::install_github('apache/spark@v2.x.x', subdir='R/pkg')
您应该选择与您使用的Spark版本相对应的标签(
v2.x.x
)。您可以通过以下方式在R上或直接从R中找到标签的完整列表:

如果您从R下载了二进制软件包,则库位于
R/lib/SparkR
子目录中。它可以直接用于安装
SparkR
。例如:

$ export SPARK_HOME=/path/to/spark/directory
$ cd $SPARK_HOME/R/pkg/
$ R -e "devtools::install('.')"
您还可以将R库添加到
.libpath
(取自):

最后,您可以使用
sparkR
shell,无需任何额外步骤:

$ /path/to/spark/directory/bin/sparkR
编辑

根据未来CRAN上应提供的:

使用Apache Spark发行版构建的独立可安装软件包。我们将很快提交给CRAN

你可以跟着检查进度

编辑2

虽然SPARK-15799已被合并,但满足CRAN要求被证明是一项挑战(例如,请参见关于,)的讨论),随后这些包已被删除(例如,请参见)。因此,原始帖子中列出的方法仍然是最可靠的解决方案

编辑3


好的,又回到CRAN上了,v2.4.1<代码>安装。软件包('SparkR')应该可以再次工作(镜像可能需要几天才能反映这一点)

SparkR不仅需要一个R软件包,还需要一个完整的Spark后端。当您想要升级SparkR时,您正在升级Spark,而不仅仅是R包。如果你想使用SparkR,那么这篇博文可能会帮助你

不过应该说:现在你可能想参考Sparkyr软件包,因为它使所有这些都变得容易多了

install.packages("devtools")
devtools::install_github("rstudio/sparklyr")
library(sparklyr)
spark_install(version = "1.6.2")
spark_install(version = "2.0.0")

它还提供了比SparkR更多的功能,并且为
dplyr
提供了一个非常好的界面

在使用Spark 2.0.0在EMR中使用SparkR时,我也遇到了类似的问题。我将在这里发布我安装rstudio server、SparkR、SPARKRYR并最终连接到EMR集群中的spark会话所遵循的步骤:

  • 安装rstudio服务器: EMR集群启动并运行后,使用用户“hadoop@”将ssh连接到主节点并下载rstudio服务器
  • wget

    然后使用
    yum安装

    sudo yum安装--nogpgcheck rstudio-server-rhel-0.99.903-x86_64.rpm

    最后添加一个用户以访问rstudio web控制台,如下所示:

    sudo su

    sudouseradd用户名

    sudo echo用户名:密码| chpasswd

  • 要访问rstudio Web控制台,您需要创建一个从您的机器到EMR主节点的SSH隧道,如下所示:
  • ssh-NL 8787:ec2 emr主节点ip.compute-1.amazonaws.com:8787hadoop@ec2-emr-master-node-ip.compute-1.amazonaws.com&

  • 现在打开任何浏览器,键入
    localhost:8787
    进入rstudio Web控制台,使用
    username:password
    组合登录

  • 要安装所需的R软件包,需要先将
    libcurl
    安装到主节点中,如下所示:

  • sudoyum更新

    sudo yum-y安装libcurl-devel

  • 通过以下方式解决权限问题:
  • sudo-u hdfs hadoop fs-mkdir/user/

    sudo-u hdfs hadoop fs-chown/user/

  • 检查EMR中的Spark版本并设置
    Spark\u HOME
  • spark提交--版本

    export SPARK_HOME='/usr/lib/SPARK/'

  • 现在在rstudio控制台中安装SparkR,如下所示:
  • install.packages('devtools'))

    devtools::install\u github('apache/spark@v2.0.0“,subdir='R/pkg')

    install.packages('sparklyr')

    图书馆(SparkR)

    图书馆(年)

    Sys.setenv(SPARK_HOME='/usr/lib/SPARK')


    sc现在,SparkR的2.1.2和2.3.0版现已在的存储库中提供,您可以按如下方式安装2.3.0版:

    install.packages("https://cran.r-project.org/src/contrib/Archive/SparkR/SparkR_2.3.0.tar.gz", repos = NULL, type="source")
    

    注意:您必须首先从下载并安装相应版本的Apache Spark,以便软件包正常工作。

    相关内容:感谢您分享有关升级startegy的信息!谢谢你的意见。我也将更新到最新版本。还要注意,上面没有安装文档。据我所知,您需要克隆回购协议,
    SparkR
    不再在CRAN中。
    install.packages("devtools")
    devtools::install_github("rstudio/sparklyr")
    library(sparklyr)
    spark_install(version = "1.6.2")
    spark_install(version = "2.0.0")
    
    install.packages("https://cran.r-project.org/src/contrib/Archive/SparkR/SparkR_2.3.0.tar.gz", repos = NULL, type="source")