Function RDD spark中最快的功能是什么
我正在实现Function RDD spark中最快的功能是什么,function,apache-spark,rdd,Function,Apache Spark,Rdd,我正在实现GroupBy函数,它是“转换”操作 我需要立即计算my GroupBy函数,因此我找到了一个解决方案,调用另一个“操作”类似于first()或count()操作,然后在GroupBy之后再计算 GroupBy的运行时间等于其+操作的运行时间,因此我需要一个最快的函数来最小化总运行时间 谢谢 我假设您这样做是为了进行性能测试。因此,如果我是对的,那么您的操作返回什么并不重要,您只需要执行转换(groupby)。我认为first()是我能想到的最快的rdd操作 另一种方法是,您可以在sp
GroupBy
函数,它是“转换”操作
我需要立即计算my GroupBy函数,因此我找到了一个解决方案,调用另一个“操作”类似于first()
或count()
操作,然后在GroupBy之后再计算
GroupBy
的运行时间等于其+操作的运行时间,因此我需要一个最快的函数来最小化总运行时间
谢谢 我假设您这样做是为了进行性能测试。因此,如果我是对的,那么您的操作返回什么并不重要,您只需要执行转换(groupby)。
我认为
first()
是我能想到的最快的rdd操作
另一种方法是,您可以在spark的webui中找到单独进行转换所需的时间。因此,您可以使用任意rdd操作 如果只需要具体化
groupBy
的结果,您会如何处理?