Python SparkR SparkyR包作为Spark前端的速度有多快？_Python_R_Scala_Apache Spark_Sparklyr

Python SparkR SparkyR包作为Spark前端的速度有多快？

python r scala apache-spark

Python SparkR SparkyR包作为Spark前端的速度有多快？,python,r,scala,apache-spark,sparklyr,Python,R,Scala,Apache Spark,Sparklyr,我在网上读到Scala比Python快，例如。我还看到了不同前端之间的比较，得出的结论是R非常慢，测试人员放弃了测量其性能的尝试（尽管这是专门针对用户定义函数的测试，可能没有使用sparklyr包）我还知道，sparklyr现在集成了arrow功能，从而提高了用户定义函数的性能，并将数据复制到集群或从集群复制数据，如图所示我的问题：与Python/Scala相比，Sparkyr的速度有多快？我最感兴趣的是标准的“开箱即用”函数，但我也很想知道在集成了arrow之后，用户定义函数的性能如何。在

我在网上读到Scala比Python快，例如。我还看到了不同前端之间的比较，得出的结论是R非常慢，测试人员放弃了测量其性能的尝试（尽管这是专门针对用户定义函数的测试，可能没有使用

sparklyr

包）

我还知道，

sparklyr

现在集成了

arrow

功能，从而提高了用户定义函数的性能，并将数据复制到集群或从集群复制数据，如图所示

我的问题：与Python/Scala相比，
Sparkyr
的速度有多快？我最感兴趣的是标准的“开箱即用”函数，但我也很想知道在集成了

arrow

之后，用户定义函数的性能如何。在什么情况下，它的表现是好是坏

我这样问是因为我在

Sparkyr

中构建了一个应用程序，尽管对调优参数进行了大量修补，但速度比我希望的要慢，我想知道这是否部分是因为软件包中的限制。

考虑到你在R中已经有了一个应用程序，我宁愿在Scala和benchmark中编写同样的应用程序。这样你就可以真正衡量它的快/慢。这里有一个比较：，尽管这不是你建议的完整比较。@r2evans谢谢你的链接。据我所知，这意味着“开箱即用”SparkyR函数只是Spark的直接接口，将dplyr语法转换为Spark SQL。所以性能应该类似于直接使用Spark SQL？如果是这样，那么问题就变成了Spark SQL相对于Python和Scala的速度有多快……我想是的。如果没有数据到某个R进程的往返，我还没有看到任何关于“Spark中的原生R”的内容。也就是说，我怀疑spark管道中的python可以在每个spark节点上本地使用python（完全是推测，我在那里没有经验），但是在每个节点上都没有看到关于R的任何信息。（这只会减少网络r/t次数…）