Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 按数据帧排序/排序是否有助于更快地返回结果_Scala_Dataframe_Sorting_Apache Spark_Apache Spark Sql - Fatal编程技术网

Scala 按数据帧排序/排序是否有助于更快地返回结果

Scala 按数据帧排序/排序是否有助于更快地返回结果,scala,dataframe,sorting,apache-spark,apache-spark-sql,Scala,Dataframe,Sorting,Apache Spark,Apache Spark Sql,我使用spark在内存中缓存了一个数据帧,我需要在其上执行一些查找(使用过滤器),如 如果在执行spark.sql时,我在查找列上对数据框进行排序,如下所示: val mydf = spark.sql(query).sort("id", "first_name", "last_name").cache 这种排序是否有助于更快地获取结果 我个人注意到在“id”上进行过滤有一些好处。 如果数据帧是按id排序的,则与不排序相比,结果更快 当

我使用spark在内存中缓存了一个数据帧,我需要在其上执行一些查找(使用过滤器),如

如果在执行spark.sql时,我在查找列上对数据框进行排序,如下所示:

val mydf = spark.sql(query).sort("id", "first_name", "last_name").cache
这种排序是否有助于更快地获取结果

我个人注意到在“id”上进行过滤有一些好处。 如果数据帧是按id排序的,则与不排序相比,结果更快

当对多个列(如姓名、姓氏)进行筛选时,排序并没有显示多少好处。 奇怪的是,即使没有排序,返回结果的速度也更快

val mydf = spark.sql(query).sort("id", "first_name", "last_name").cache