Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 拼花地板下推_Hadoop_Apache Spark_Parquet_Bigdata - Fatal编程技术网

Hadoop 拼花地板下推

Hadoop 拼花地板下推,hadoop,apache-spark,parquet,bigdata,Hadoop,Apache Spark,Parquet,Bigdata,parquet的谓词下推是否意味着仅从磁盘加载所需的数据 例如,如果我创建一个spark数据框,并且只选择特定字段,那么是否只从磁盘读取这些字段?谓词下推处理将扫描哪些值,而不是哪些列。 因此,如果在列A上应用过滤器仅返回值为V的记录,谓词向下推将使拼花地板成为可能包含值V的只读块。 Parquet在多个级别中保存最小/最大统计信息,它会将值V与那些最小/最大标题进行比较,并且只扫描最小/最大包含值V的块。 这是谓词下推 parquet的另一个功能是“投影下推”(projection pushd

parquet的谓词下推是否意味着仅从磁盘加载所需的数据


例如,如果我创建一个spark数据框,并且只选择特定字段,那么是否只从磁盘读取这些字段?

谓词下推处理将扫描哪些值,而不是哪些列。 因此,如果在列A上应用过滤器仅返回值为V的记录,谓词向下推将使拼花地板成为可能包含值V的只读块。 Parquet在多个级别中保存最小/最大统计信息,它会将值V与那些最小/最大标题进行比较,并且只扫描最小/最大包含值V的块。 这是谓词下推


parquet的另一个功能是“投影下推”(projection pushdown)——它将数据存储在列中,因此当投影将查询限制到某些列时,将只返回这些列。这个特性不是所谓的谓词下推。

有点像。Spark项目只获取所需的列(如果可以),但这不是谓词下推的目的。中的谓词下推通常包括放置在
WHERE
子句中的条件。