Apache spark 拼花地板支持哪些压缩类型
我当时正在用spark以拼花格式编写Hadoop和hive的数据。我想启用压缩,但我只能在压缩中找到两种类型—大多数情况下使用snappy和Gzip。拼花地板是否也支持任何其他压缩,如Deflate和lzo 在Spark 2.1中 从: 您可以设置以下特定于拼花地板的书写选项 拼花地板文件:Apache spark 拼花地板支持哪些压缩类型,apache-spark,hadoop,hive,compression,parquet,Apache Spark,Hadoop,Hive,Compression,Parquet,我当时正在用spark以拼花格式编写Hadoop和hive的数据。我想启用压缩,但我只能在压缩中找到两种类型—大多数情况下使用snappy和Gzip。拼花地板是否也支持任何其他压缩,如Deflate和lzo 在Spark 2.1中 从: 您可以设置以下特定于拼花地板的书写选项 拼花地板文件: compression(默认值为spark.sql.parquet.compression.codec中指定的值):在 保存到文件。这可能是已知的不区分大小写的缩写之一 名称(none,snappy,gzi
compression
(默认值为spark.sql.parquet.compression.codec
中指定的值):在
保存到文件。这可能是已知的不区分大小写的缩写之一
名称(none
,snappy
,gzip
,和lzo
)。这将 覆盖spark.sql.parquet.compression.codec 在Spark 2.4/3.0中
总体支持的压缩包括:
none
、uncompressed
、snappy
、gzip
、lzo
、brotli
、lz4
和zstd
Apache拼花地板支持的压缩类型在拼花地板格式
存储库中指定:
/**
* Supported compression algorithms.
*
* Codecs added in 2.4 can be read by readers based on 2.4 and later.
* Codec support may vary between readers based on the format version and
* libraries available at runtime. Gzip, Snappy, and LZ4 codecs are
* widely available, while Zstd and Brotli require additional libraries.
*/
enum CompressionCodec {
UNCOMPRESSED = 0;
SNAPPY = 1;
GZIP = 2;
LZO = 3;
BROTLI = 4; // Added in 2.4
LZ4 = 5; // Added in 2.4
ZSTD = 6; // Added in 2.4
}
Snappy和Gzip是最常用的两种,所有实现都支持它们。LZ4和ZSTD产生了比前两个更好的结果,但对格式来说是一个新的补充,因此它们仅在某些实现的较新版本中受支持。链接不是答案。