Hadoop HAWQ表大小估计
关于要加载到HAWQ中的表的存储大小计算/估计,我有一个问题 我在HIVE中有一个30MB的表,我正在尝试使用PXF将其加载到HAWQ中,例如: 从hcatalog.default.afs_trvn_mktscn_population创建表t2表空间数据,作为select* HAWQ中的表消耗了369MB的存储空间?无论我有多少HAWQ段,以及HAWQ DFS.replica因子或HDFS复制因子是什么?我的情况是,即使有4个HAWQ段或1个HAWQ段,加载后的表大小也是369MB 我可以理解最小块大小是128MB,所以即使是30MB也会使用最小128MB,但为什么>300MBHadoop HAWQ表大小估计,hadoop,greenplum,hawq,Hadoop,Greenplum,Hawq,关于要加载到HAWQ中的表的存储大小计算/估计,我有一个问题 我在HIVE中有一个30MB的表,我正在尝试使用PXF将其加载到HAWQ中,例如: 从hcatalog.default.afs_trvn_mktscn_population创建表t2表空间数据,作为select* HAWQ中的表消耗了369MB的存储空间?无论我有多少HAWQ段,以及HAWQ DFS.replica因子或HDFS复制因子是什么?我的情况是,即使有4个HAWQ段或1个HAWQ段,加载后的表大小也是369MB 我可以理解最
你能分享一些关于这方面的信息吗?你的蜂巢表可能被存储为ORC,并进行了快速压缩,而你的HAWQ表甚至没有被压缩。您应该在HAWQ表中使用:
with (appendonly=true, orientation=parquet, compresstype=snappy)