Apache spark 拼花地板摘要文件是什么?

Apache spark 拼花地板摘要文件是什么?,apache-spark,apache-spark-sql,parquet,Apache Spark,Apache Spark Sql,Parquet,在Apache的官方网站上: 如果为true,则拼花数据源合并从所有数据文件收集的架构,否则将从摘要文件或随机数据文件(如果没有可用的摘要文件)中拾取架构 事实上,我的问题是,摘要文件是什么?Apache Parquet使用元数据存储从文件加载数据所需的所有信息,如列元数据、字典行组等 该格式旨在将此元数据嵌入文件本身,或存储在单独的文件中。这就是摘要文件。拼花地板存储格式是面向列的文件格式,这意味着所有行的特定列的数据将彼此相邻存储,这带来了两个主要好处—更好的压缩比和更高的查询性能。拼花汇总

在Apache的官方网站上:

如果为true,则拼花数据源合并从所有数据文件收集的架构,否则将从摘要文件或随机数据文件(如果没有可用的摘要文件)中拾取架构


事实上,我的问题是,摘要文件是什么?

Apache Parquet使用元数据存储从文件加载数据所需的所有信息,如列元数据、字典行组等


该格式旨在将此元数据嵌入文件本身,或存储在单独的文件中。这就是
摘要文件。

拼花地板存储格式是面向列的文件格式,这意味着所有行的特定列的数据将彼此相邻存储,这带来了两个主要好处—更好的压缩比和更高的查询性能。

拼花汇总文件包含目录中实际拼花数据文件的页脚集合。它可以用于在读取时跳过行组,而不从每个单独的拼花地板文件中获取页脚,如果您有很多文件和/或在Blob存储中,这可能会很昂贵