Hadoop hive中Avro文件格式和bz2压缩之间的差异_Hadoop_Hive_Hiveql

Hadoop hive中Avro文件格式和bz2压缩之间的差异

hadoop hive

Hadoop hive中Avro文件格式和bz2压缩之间的差异,hadoop,hive,hiveql,Hadoop,Hive,Hiveql,我知道下面是配置单元中的输入和输出格式文本文件。序列文件。 RC文件。 AVRO文件。兽人档案。拼花锉刀我们什么时候使用bz2压缩，它们与hive文件格式有何不同？什么时候使用它？Avro是一种文件格式，BZ2是一种压缩编解码器。这两件事完全不同您可以独立选择和压缩编解码器。某些文件格式使用内部压缩，并且对可使用的编解码器有限制。例如，ORC支持ZLIB和SNAPPY编解码器。您可以在表属性中配置编解码器，如下所示： ... STORED AS ORC TBLPROPERTIES (

我知道下面是配置单元中的输入和输出格式

文本文件。序列文件。 RC文件。 AVRO文件。兽人档案。拼花锉刀

我们什么时候使用bz2压缩，它们与hive文件格式有何不同？什么时候使用它？

Avro是一种文件格式，BZ2是一种压缩编解码器。这两件事完全不同

您可以独立选择和压缩编解码器。某些文件格式使用内部压缩，并且对可使用的编解码器有限制。例如，ORC支持ZLIB和SNAPPY编解码器。您可以在表属性中配置编解码器，如下所示：

...
STORED AS ORC TBLPROPERTIES ("orc.compress"="SNAPPY")

或使用配置单元配置：

hive.exec.orc.default.compress=SNAPPY;

阅读有关兽人的信息：

支持SNAPPY和DEFLATE编解码器

SET hive.exec.compress.output=true;
SET avro.output.codec=snappy;

使用textfile，您可以使用任何编解码器

并且可以在没有严格性能要求的情况下使用。阅读有关压缩的文章

这里需要了解的重要一点是，如果您使用的是可拆分容器，则不可拆分压缩并不总是一个问题。例如，使用snappy压缩的整个文件不可拆分，但内部使用snappy的ORC是可拆分的，因为ORC是可拆分的