Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Function RDD spark中最快的功能是什么_Function_Apache Spark_Rdd - Fatal编程技术网

Function RDD spark中最快的功能是什么

Function RDD spark中最快的功能是什么,function,apache-spark,rdd,Function,Apache Spark,Rdd,我正在实现GroupBy函数,它是“转换”操作 我需要立即计算my GroupBy函数,因此我找到了一个解决方案,调用另一个“操作”类似于first()或count()操作,然后在GroupBy之后再计算 GroupBy的运行时间等于其+操作的运行时间,因此我需要一个最快的函数来最小化总运行时间 谢谢 我假设您这样做是为了进行性能测试。因此,如果我是对的,那么您的操作返回什么并不重要,您只需要执行转换(groupby)。我认为first()是我能想到的最快的rdd操作 另一种方法是,您可以在sp

我正在实现
GroupBy
函数,它是“转换”操作

我需要立即计算my GroupBy函数,因此我找到了一个解决方案,调用另一个“操作”类似于
first()
count()
操作,然后在GroupBy之后再计算

GroupBy
的运行时间等于其+操作的运行时间,因此我需要一个最快的函数来最小化总运行时间


谢谢

我假设您这样做是为了进行性能测试。因此,如果我是对的,那么您的操作返回什么并不重要,您只需要执行转换(groupby)。
我认为
first()
是我能想到的最快的rdd操作


另一种方法是,您可以在spark的webui中找到单独进行转换所需的时间。因此,您可以使用任意rdd操作

如果只需要具体化
groupBy
的结果,您会如何处理?