用于分布式处理的R包

用于分布式处理的R包,r,distributed-computing,R,Distributed Computing,我目前有一个R查询,可以使用foreach在一个循环中进行并行处理。但它是使用一台32核的服务器完成的。由于我的数据量很大,我正试图找到可以将计算分发到不同窗口服务器并可以与foreach进行并行处理的r包 非常感谢你的帮助 SparkR就是答案。发件人: SparkR是最初在AMPLab开发的一个R包,它为ApacheSpark提供了一个R前端,使用Spark的分布式计算引擎,我们可以从R shell运行大规模数据分析 另见 要开始,您需要设置一个Spark群集。这应该会有所帮助。Spark文

我目前有一个R查询,可以使用foreach在一个循环中进行并行处理。但它是使用一台32核的服务器完成的。由于我的数据量很大,我正试图找到可以将计算分发到不同窗口服务器并可以与foreach进行并行处理的r包


非常感谢你的帮助

SparkR就是答案。发件人:

SparkR是最初在AMPLab开发的一个R包,它为ApacheSpark提供了一个R前端,使用Spark的分布式计算引擎,我们可以从R shell运行大规模数据分析

另见


要开始,您需要设置一个Spark群集。这应该会有所帮助。Spark文档(不使用Mesos或Thread作为集群管理器)是可用的。一旦你建立了Spark,就可以在SparkR上看到Wendy Yu。她还展示了如何将H20与Spark集成,Spark被称为“起泡水”。

对于现在的几个版本,R已经附带了一个基本库
parallel
。你可以做得比开始阅读它的相当好(仍然很短)更糟糕

简言之,你可以做如下的事情

mclapply(1:nCores, someFunction())
函数
someFunction()
将在
nCores
上并行运行。默认值为物理内核的一半可能是一个好的开始


这本书还有很多要点。

非常感谢你,布赖恩。我有几个窗口服务器(本地网络)。您是否知道任何文档/指南以及示例,可以帮助我如何使用SparkR编写代码,将计算分发到服务器?再次感谢!!我用更多的说明更新了我的答案。