Hadoop 拼花地板下推
parquet的谓词下推是否意味着仅从磁盘加载所需的数据Hadoop 拼花地板下推,hadoop,apache-spark,parquet,bigdata,Hadoop,Apache Spark,Parquet,Bigdata,parquet的谓词下推是否意味着仅从磁盘加载所需的数据 例如,如果我创建一个spark数据框,并且只选择特定字段,那么是否只从磁盘读取这些字段?谓词下推处理将扫描哪些值,而不是哪些列。 因此,如果在列A上应用过滤器仅返回值为V的记录,谓词向下推将使拼花地板成为可能包含值V的只读块。 Parquet在多个级别中保存最小/最大统计信息,它会将值V与那些最小/最大标题进行比较,并且只扫描最小/最大包含值V的块。 这是谓词下推 parquet的另一个功能是“投影下推”(projection pushd
例如,如果我创建一个spark数据框,并且只选择特定字段,那么是否只从磁盘读取这些字段?谓词下推处理将扫描哪些值,而不是哪些列。 因此,如果在列A上应用过滤器仅返回值为V的记录,谓词向下推将使拼花地板成为可能包含值V的只读块。 Parquet在多个级别中保存最小/最大统计信息,它会将值V与那些最小/最大标题进行比较,并且只扫描最小/最大包含值V的块。 这是谓词下推
parquet的另一个功能是“投影下推”(projection pushdown)——它将数据存储在列中,因此当投影将查询限制到某些列时,将只返回这些列。这个特性不是所谓的谓词下推。有点像。Spark项目只获取所需的列(如果可以),但这不是谓词下推的目的。中的谓词下推通常包括放置在
WHERE
子句中的条件。