Hadoop 从avro转换为拼花地板，蜂巢数据量大幅增加_Hadoop_Hive_Avro_Parquet_Data Formats

Hadoop 从avro转换为拼花地板，蜂巢数据量大幅增加

hadoop hive

Hadoop 从avro转换为拼花地板，蜂巢数据量大幅增加,hadoop,hive,avro,parquet,data-formats,Hadoop,Hive,Avro,Parquet,Data Formats,我想将一天的avro数据（~2 TB）转换为拼花地板我运行了一个配置单元查询，数据成功地转换为拼花地板但数据大小变为6 TB 如果数据的大小是原来的三倍，会发生什么情况？通常情况下，拼花地板比Avro更有效，因为它是一种柱状格式，相同类型的列在磁盘上相邻。这使得压缩算法在某些情况下更加有效。通常，我们使用Snappy，这是足够的，在CPU上很容易，并且有几个属性使它相对于其他压缩方法（如zip或gzip）适合Hadoop。主要是快的是可拆分的；每个块保留确定模式所需的信息。MParquet是

我想将一天的avro数据（~2 TB）转换为拼花地板

我运行了一个配置单元查询，数据成功地转换为拼花地板

但数据大小变为6 TB

如果数据的大小是原来的三倍，会发生什么情况？

通常情况下，拼花地板比Avro更有效，因为它是一种柱状格式，相同类型的列在磁盘上相邻。这使得压缩算法在某些情况下更加有效。通常，我们使用Snappy，这是足够的，在CPU上很容易，并且有几个属性使它相对于其他压缩方法（如zip或gzip）适合Hadoop。主要是快的是可拆分的；每个块保留确定模式所需的信息。MParquet是一种很好的格式，我们在从Avro迁移后对查询性能非常满意（我们也可以使用超快速的Impapla）。

您是否为拼花表设置了特定的压缩编解码器？AFAIK默认使用Snappy——CPU价格便宜，但磁盘效率不高……你试过用ORC代替拼花地板吗？（默认压缩编解码器是GZip，您可以切换到Snappy或None）我忘记设置压缩属性了。默认情况下可能是未压缩的。我忘记设置压缩属性了。默认情况下可能是未压缩的。我忘记设置压缩属性了。也许默认情况下它是未压缩的。