Python SparkR SparkyR包作为Spark前端的速度有多快?

Python SparkR SparkyR包作为Spark前端的速度有多快?,python,r,scala,apache-spark,sparklyr,Python,R,Scala,Apache Spark,Sparklyr,我在网上读到Scala比Python快,例如。我还看到了不同前端之间的比较,得出的结论是R非常慢,测试人员放弃了测量其性能的尝试(尽管这是专门针对用户定义函数的测试,可能没有使用sparklyr包) 我还知道,sparklyr现在集成了arrow功能,从而提高了用户定义函数的性能,并将数据复制到集群或从集群复制数据,如图所示 我的问题:与Python/Scala相比,Sparkyr的速度有多快?我最感兴趣的是标准的“开箱即用”函数,但我也很想知道在集成了arrow之后,用户定义函数的性能如何。在

我在网上读到Scala比Python快,例如。我还看到了不同前端之间的比较,得出的结论是R非常慢,测试人员放弃了测量其性能的尝试(尽管这是专门针对用户定义函数的测试,可能没有使用
sparklyr
包)

我还知道,
sparklyr
现在集成了
arrow
功能,从而提高了用户定义函数的性能,并将数据复制到集群或从集群复制数据,如图所示

我的问题:与Python/Scala相比,
Sparkyr
的速度有多快?
我最感兴趣的是标准的“开箱即用”函数,但我也很想知道在集成了
arrow
之后,用户定义函数的性能如何。在什么情况下,它的表现是好是坏


我这样问是因为我在
Sparkyr
中构建了一个应用程序,尽管对调优参数进行了大量修补,但速度比我希望的要慢,我想知道这是否部分是因为软件包中的限制。

考虑到你在R中已经有了一个应用程序,我宁愿在Scala和benchmark中编写同样的应用程序。这样你就可以真正衡量它的快/慢。这里有一个比较:,尽管这不是你建议的完整比较。@r2evans谢谢你的链接。据我所知,这意味着“开箱即用”SparkyR函数只是Spark的直接接口,将dplyr语法转换为Spark SQL。所以性能应该类似于直接使用Spark SQL?如果是这样,那么问题就变成了Spark SQL相对于Python和Scala的速度有多快……我想是的。如果没有数据到某个R进程的往返,我还没有看到任何关于“Spark中的原生R”的内容。也就是说,我怀疑spark管道中的python可以在每个spark节点上本地使用python(完全是推测,我在那里没有经验),但是在每个节点上都没有看到关于R的任何信息。(这只会减少网络r/t次数…)