Hadoop 拼花地板下推_Hadoop_Apache Spark_Parquet_Bigdata

Hadoop 拼花地板下推

hadoop apache-spark

Hadoop 拼花地板下推,hadoop,apache-spark,parquet,bigdata,Hadoop,Apache Spark,Parquet,Bigdata,parquet的谓词下推是否意味着仅从磁盘加载所需的数据例如，如果我创建一个spark数据框，并且只选择特定字段，那么是否只从磁盘读取这些字段？谓词下推处理将扫描哪些值，而不是哪些列。因此，如果在列A上应用过滤器仅返回值为V的记录，谓词向下推将使拼花地板成为可能包含值V的只读块。 Parquet在多个级别中保存最小/最大统计信息，它会将值V与那些最小/最大标题进行比较，并且只扫描最小/最大包含值V的块。这是谓词下推 parquet的另一个功能是“投影下推”（projection pushd

parquet的谓词下推是否意味着仅从磁盘加载所需的数据

例如，如果我创建一个spark数据框，并且只选择特定字段，那么是否只从磁盘读取这些字段？

谓词下推处理将扫描哪些值，而不是哪些列。因此，如果在列A上应用过滤器仅返回值为V的记录，谓词向下推将使拼花地板成为可能包含值V的只读块。 Parquet在多个级别中保存最小/最大统计信息，它会将值V与那些最小/最大标题进行比较，并且只扫描最小/最大包含值V的块。这是谓词下推

parquet的另一个功能是“投影下推”（projection pushdown）——它将数据存储在列中，因此当投影将查询限制到某些列时，将只返回这些列。这个特性不是所谓的谓词下推。

有点像。Spark项目只获取所需的列（如果可以），但这不是谓词下推的目的。中的谓词下推通常包括放置在

WHERE

子句中的条件。