Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/72.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R-Hadoop集成-如何将R连接到远程HDF_R_Hadoop_Hdfs_Rhadoop - Fatal编程技术网

R-Hadoop集成-如何将R连接到远程HDF

R-Hadoop集成-如何将R连接到远程HDF,r,hadoop,hdfs,rhadoop,R,Hadoop,Hdfs,Rhadoop,我有一个案例,我将在从Hadoop下载的数据上运行R代码。然后,R代码的输出也将上传回Hadoop。目前,我正在手动操作,我希望避免这种手动下载/上传过程 有没有一种方法可以通过连接hdfs在R中实现这一点?换句话说,在R脚本的开头,它连接到Hadoop并读取数据,然后在最后再次将输出数据上传到Hadoop。有可以使用的软件包吗?Hadoop server或R中需要做哪些更改 我忘了注意重要的一点:R和Hadoop在不同的服务器上。安装rmr2软件包,您可以选择从.dfs函数获取数据,这可以解决

我有一个案例,我将在从Hadoop下载的数据上运行R代码。然后,R代码的输出也将上传回Hadoop。目前,我正在手动操作,我希望避免这种手动下载/上传过程

有没有一种方法可以通过连接hdfs在R中实现这一点?换句话说,在R脚本的开头,它连接到Hadoop并读取数据,然后在最后再次将输出数据上传到Hadoop。有可以使用的软件包吗?Hadoop server或R中需要做哪些更改


我忘了注意重要的一点:R和Hadoop在不同的服务器上。

安装rmr2软件包,您可以选择从.dfs函数获取数据,这可以解决您从HDFS获取数据的要求,如下所述:


input\u hdfs。。。你找到解决办法了吗

几个月前,我偶然发现了同样的情况。在对Revolution Analytics软件包进行了一段时间的修改之后,我找不到一种方法让它在R和Hadoop位于不同服务器上的情况下工作

我尝试使用webHDFS,这在当时对我有效。 您可以找到webhdfs访问的R包

程序包在您需要运行的CRAN上不可用:

devtools::install_github(c("saurfang/rwebhdfs"))

(是的……您将需要devtools软件包)

我可以问一下您为什么要从hdfs下载数据吗?通常使用hadoop时,重点应该是将计算引入到数据中。我不是说你从来都不想这样做,只是好奇你的用例。我不知道我如何在hadoop中对数据运行R函数而不先在R中读取它。你能在hadoop服务器上安装R吗?将数据下载到您的R服务器似乎成本高昂…不,我们无法在Hadoop服务器上安装R。数据的大小也不会成为问题。这将是一个定期的基础上,所以我们想做的一切在R如果可能的话。这是一个答案吗?