Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/81.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在Hadoop服务器上分发R处理_R_Hadoop_Apache Spark_Parallel Processing_Distributed Computing - Fatal编程技术网

在Hadoop服务器上分发R处理

在Hadoop服务器上分发R处理,r,hadoop,apache-spark,parallel-processing,distributed-computing,R,Hadoop,Apache Spark,Parallel Processing,Distributed Computing,我目前有一个本地运行的R代码。它由一个foreach部分组成,我使用%dopar%函数成功地将其并行化。我希望将这个循环从单个CPU上的并行化转换为Hadoop服务器上的分发 有人能告诉我一个合适的方法和我应该使用哪些软件包吗 附加信息:我的Hadoop设置是Hortonworks HDP,我的foreach循环是令人尴尬的并行。为了提高速度,我希望从本地并行过渡到集群分布。只有计算/处理需要在集群上完成(我的数据是本地的,而不是集群上的)。没有设计为使用Hadoop的foreach后端。您可以

我目前有一个本地运行的R代码。它由一个foreach部分组成,我使用%dopar%函数成功地将其并行化。我希望将这个循环从单个CPU上的并行化转换为Hadoop服务器上的分发

有人能告诉我一个合适的方法和我应该使用哪些软件包吗


附加信息:我的Hadoop设置是Hortonworks HDP,我的foreach循环是令人尴尬的并行。为了提高速度,我希望从本地并行过渡到集群分布。只有计算/处理需要在集群上完成(我的数据是本地的,而不是集群上的)。

没有设计为使用Hadoop的foreach后端。您可以使用
doSNOW
doParallel
doMPI
在集群的多个节点上执行foreach,但它们需要ssh或MPI/mpirun来启动远程节点上的工作进程。我不确定这对Hadoop有多好

有许多R包可以与Hadoop一起使用(
RHIPE
RHadoop
),但我不知道要将R代码转换为使用它们需要多少工作