Apache spark 拼花地板支持哪些压缩类型

Apache spark 拼花地板支持哪些压缩类型,apache-spark,hadoop,hive,compression,parquet,Apache Spark,Hadoop,Hive,Compression,Parquet,我当时正在用spark以拼花格式编写Hadoop和hive的数据。我想启用压缩,但我只能在压缩中找到两种类型—大多数情况下使用snappy和Gzip。拼花地板是否也支持任何其他压缩,如Deflate和lzo 在Spark 2.1中 从: 您可以设置以下特定于拼花地板的书写选项 拼花地板文件: compression(默认值为spark.sql.parquet.compression.codec中指定的值):在 保存到文件。这可能是已知的不区分大小写的缩写之一 名称(none,snappy,gzi

我当时正在用spark以拼花格式编写Hadoop和hive的数据。我想启用压缩,但我只能在压缩中找到两种类型—大多数情况下使用snappy和Gzip。拼花地板是否也支持任何其他压缩,如Deflate和lzo

在Spark 2.1中 从:

您可以设置以下特定于拼花地板的书写选项 拼花地板文件:

compression
(默认值为
spark.sql.parquet.compression.codec
中指定的值):在 保存到文件。这可能是已知的不区分大小写的缩写之一 名称(
none
snappy
gzip
,和
lzo
)。
这将 覆盖spark.sql.parquet.compression.codec

在Spark 2.4/3.0中
总体支持的压缩包括:
none
uncompressed
snappy
gzip
lzo
brotli
lz4
zstd
Apache拼花地板支持的压缩类型在
拼花地板格式
存储库中指定:

/**
 * Supported compression algorithms.
 *
 * Codecs added in 2.4 can be read by readers based on 2.4 and later.
 * Codec support may vary between readers based on the format version and
 * libraries available at runtime. Gzip, Snappy, and LZ4 codecs are
 * widely available, while Zstd and Brotli require additional libraries.
 */
enum CompressionCodec {
  UNCOMPRESSED = 0;
  SNAPPY = 1;
  GZIP = 2;
  LZO = 3;
  BROTLI = 4; // Added in 2.4
  LZ4 = 5;    // Added in 2.4
  ZSTD = 6;   // Added in 2.4
}


Snappy和Gzip是最常用的两种,所有实现都支持它们。LZ4和ZSTD产生了比前两个更好的结果,但对格式来说是一个新的补充,因此它们仅在某些实现的较新版本中受支持。

链接不是答案。