Scala 按数据帧排序/排序是否有助于更快地返回结果
我使用spark在内存中缓存了一个数据帧,我需要在其上执行一些查找(使用过滤器),如 如果在执行spark.sql时,我在查找列上对数据框进行排序,如下所示:Scala 按数据帧排序/排序是否有助于更快地返回结果,scala,dataframe,sorting,apache-spark,apache-spark-sql,Scala,Dataframe,Sorting,Apache Spark,Apache Spark Sql,我使用spark在内存中缓存了一个数据帧,我需要在其上执行一些查找(使用过滤器),如 如果在执行spark.sql时,我在查找列上对数据框进行排序,如下所示: val mydf = spark.sql(query).sort("id", "first_name", "last_name").cache 这种排序是否有助于更快地获取结果 我个人注意到在“id”上进行过滤有一些好处。 如果数据帧是按id排序的,则与不排序相比,结果更快 当
val mydf = spark.sql(query).sort("id", "first_name", "last_name").cache
这种排序是否有助于更快地获取结果
我个人注意到在“id”上进行过滤有一些好处。
如果数据帧是按id排序的,则与不排序相比,结果更快
当对多个列(如姓名、姓氏)进行筛选时,排序并没有显示多少好处。
奇怪的是,即使没有排序,返回结果的速度也更快
val mydf = spark.sql(query).sort("id", "first_name", "last_name").cache