Hadoop hive中Avro文件格式和bz2压缩之间的差异

Hadoop hive中Avro文件格式和bz2压缩之间的差异,hadoop,hive,hiveql,Hadoop,Hive,Hiveql,我知道下面是配置单元中的输入和输出格式 文本文件。 序列文件。 RC文件。 AVRO文件。 兽人档案。 拼花锉刀 我们什么时候使用bz2压缩,它们与hive文件格式有何不同?什么时候使用它?Avro是一种文件格式,BZ2是一种压缩编解码器。这两件事完全不同 您可以独立选择和压缩编解码器。某些文件格式使用内部压缩,并且对可使用的编解码器有限制。例如,ORC支持ZLIB和SNAPPY编解码器。您可以在表属性中配置编解码器,如下所示: ... STORED AS ORC TBLPROPERTIES (

我知道下面是配置单元中的输入和输出格式

文本文件。 序列文件。 RC文件。 AVRO文件。 兽人档案。 拼花锉刀


我们什么时候使用bz2压缩,它们与hive文件格式有何不同?什么时候使用它?

Avro是一种文件格式,BZ2是一种压缩编解码器。这两件事完全不同

您可以独立选择和压缩编解码器。某些文件格式使用内部压缩,并且对可使用的编解码器有限制。例如,ORC支持ZLIB和SNAPPY编解码器。您可以在表属性中配置编解码器,如下所示:

...
STORED AS ORC TBLPROPERTIES ("orc.compress"="SNAPPY")
或使用配置单元配置:

hive.exec.orc.default.compress=SNAPPY;  
阅读有关兽人的信息:

支持SNAPPY和DEFLATE编解码器

SET hive.exec.compress.output=true;
SET avro.output.codec=snappy;
使用textfile,您可以使用任何编解码器

并且可以在没有严格性能要求的情况下使用。阅读有关压缩的文章


这里需要了解的重要一点是,如果您使用的是可拆分容器,则不可拆分压缩并不总是一个问题。例如,使用snappy压缩的整个文件不可拆分,但内部使用snappy的ORC是可拆分的,因为ORC是可拆分的

Avro是一种文件格式,BZ2是一种压缩编解码器。这两件事完全不同

您可以独立选择和压缩编解码器。某些文件格式使用内部压缩,并且对可使用的编解码器有限制。例如,ORC支持ZLIB和SNAPPY编解码器。您可以在表属性中配置编解码器,如下所示:

...
STORED AS ORC TBLPROPERTIES ("orc.compress"="SNAPPY")
或使用配置单元配置:

hive.exec.orc.default.compress=SNAPPY;  
阅读有关兽人的信息:

支持SNAPPY和DEFLATE编解码器

SET hive.exec.compress.output=true;
SET avro.output.codec=snappy;
使用textfile,您可以使用任何编解码器

并且可以在没有严格性能要求的情况下使用。阅读有关压缩的文章


这里需要了解的重要一点是,如果您使用的是可拆分容器,则不可拆分压缩并不总是一个问题。例如,使用snappy压缩的整个文件不可拆分,但内部使用snappy的ORC是可拆分的,因为ORC是可拆分的

我们能够从hive?中的BZ2文件中读取数据吗?因为输入文件格式像avro和parquet一样受到限制。@Ganesh您可以将其用于测试文件(CSV,JSON),而不是parquet,avro。我们能够从hive?中的BZ2文件中读取数据吗?因为输入文件格式像avro和parquet一样受到限制。@Ganesh您可以将其用于测试文件(CSV,JSON),不是用拼花地板,阿夫罗。