Hadoop 从avro转换为拼花地板,蜂巢数据量大幅增加

Hadoop 从avro转换为拼花地板,蜂巢数据量大幅增加,hadoop,hive,avro,parquet,data-formats,Hadoop,Hive,Avro,Parquet,Data Formats,我想将一天的avro数据(~2 TB)转换为拼花地板 我运行了一个配置单元查询,数据成功地转换为拼花地板 但数据大小变为6 TB 如果数据的大小是原来的三倍,会发生什么情况?通常情况下,拼花地板比Avro更有效,因为它是一种柱状格式,相同类型的列在磁盘上相邻。这使得压缩算法在某些情况下更加有效。通常,我们使用Snappy,这是足够的,在CPU上很容易,并且有几个属性使它相对于其他压缩方法(如zip或gzip)适合Hadoop。主要是快的是可拆分的;每个块保留确定模式所需的信息。MParquet是

我想将一天的avro数据(~2 TB)转换为拼花地板

我运行了一个配置单元查询,数据成功地转换为拼花地板

但数据大小变为6 TB


如果数据的大小是原来的三倍,会发生什么情况?

通常情况下,拼花地板比Avro更有效,因为它是一种柱状格式,相同类型的列在磁盘上相邻。这使得压缩算法在某些情况下更加有效。通常,我们使用Snappy,这是足够的,在CPU上很容易,并且有几个属性使它相对于其他压缩方法(如zip或gzip)适合Hadoop。主要是快的是可拆分的;每个块保留确定模式所需的信息。MParquet是一种很好的格式,我们在从Avro迁移后对查询性能非常满意(我们也可以使用超快速的Impapla)。

您是否为拼花表设置了特定的压缩编解码器?AFAIK默认使用Snappy——CPU价格便宜,但磁盘效率不高……你试过用ORC代替拼花地板吗?(默认压缩编解码器是GZip,您可以切换到Snappy或None)我忘记设置压缩属性了。默认情况下可能是未压缩的。我忘记设置压缩属性了。默认情况下可能是未压缩的。我忘记设置压缩属性了。也许默认情况下它是未压缩的。