如何在spark cluster中管理R包_R_Hadoop_Parallel Processing_Apache Spark_Sparkr

如何在spark cluster中管理R包

r hadoop parallel-processing apache-spark

如何在spark cluster中管理R包,r,hadoop,parallel-processing,apache-spark,sparkr,R,Hadoop,Parallel Processing,Apache Spark,Sparkr,我正在使用1.3.1版的小型spark集群（5个DataNodes和2个NameNodes）。我在伯克利的博客上读到了这篇文章：其中详细介绍了如何使用sparkR实现梯度下降；通过sparkR方法“lapplyPartition”并行运行用户定义的梯度函数。如果lapplyPartition使用户定义的梯度函数在每个节点中执行，我想在用户定义的梯度函数中使用的所有方法也应该在每个节点中可用。这意味着，R及其所有包都应该安装在每个节点中。我听懂了吗如果是这样，有没有办法管理R包？现在我的集群

我正在使用1.3.1版的小型spark集群（5个DataNodes和2个NameNodes）。我在伯克利的博客上读到了这篇文章：

其中详细介绍了如何使用sparkR实现梯度下降；通过sparkR方法“lapplyPartition”并行运行用户定义的梯度函数。如果lapplyPartition使用户定义的梯度函数在每个节点中执行，我想在用户定义的梯度函数中使用的所有方法也应该在每个节点中可用。这意味着，R及其所有包都应该安装在每个节点中。我听懂了吗

如果是这样，有没有办法管理R包？现在我的集群很小，所以我们可以手动操作，但我猜那些拥有大集群的人不会这样做。有什么建议吗

非常感谢

R及其所有包应安装在每个节点中。-是的有什么建议吗？\有多种自动化工具，但建议与SO无关。lapplyPartition已从1.4中删除。如果这是一个长期的解决方案，你可能会陷入死胡同end@piccolbo实际上，它已经被移动到内部API。这并不是说它有很大区别。@zero323它确实有区别：您可以通过修改源代码来导出内部API元素，而无需编写自己的函数。我并不是说这是最好的解决方案，但是…@zero323正是如此。他们就像走了一样。不支持。错误不再被修复。未来是不确定的操作员使用触发器生成警告。对他们进行编码，后果自负。您已收到警告。R及其所有包应安装在每个节点中。-是的有什么建议吗？\有多种自动化工具，但建议与SO无关。lapplyPartition已从1.4中删除。如果这是一个长期的解决方案，你可能会陷入死胡同end@piccolbo实际上，它已经被移动到内部API。这并不是说它有很大区别。@zero323它确实有区别：您可以通过修改源代码来导出内部API元素，而无需编写自己的函数。我并不是说这是最好的解决方案，但是…@zero323正是如此。他们就像走了一样。不支持。错误不再被修复。未来是不确定的操作员使用触发器生成警告。对他们进行编码，后果自负。你已经被警告过了。