Hadoop HAWQ表大小估计_Hadoop_Greenplum_Hawq

Hadoop HAWQ表大小估计

hadoop

Hadoop HAWQ表大小估计,hadoop,greenplum,hawq,Hadoop,Greenplum,Hawq,关于要加载到HAWQ中的表的存储大小计算/估计，我有一个问题我在HIVE中有一个30MB的表，我正在尝试使用PXF将其加载到HAWQ中，例如：从hcatalog.default.afs_trvn_mktscn_population创建表t2表空间数据，作为select* HAWQ中的表消耗了369MB的存储空间？无论我有多少HAWQ段，以及HAWQ DFS.replica因子或HDFS复制因子是什么？我的情况是，即使有4个HAWQ段或1个HAWQ段，加载后的表大小也是369MB 我可以理解最

关于要加载到HAWQ中的表的存储大小计算/估计，我有一个问题

我在HIVE中有一个30MB的表，我正在尝试使用PXF将其加载到HAWQ中，例如：从hcatalog.default.afs_trvn_mktscn_population创建表t2表空间数据，作为select*

HAWQ中的表消耗了369MB的存储空间？无论我有多少HAWQ段，以及HAWQ DFS.replica因子或HDFS复制因子是什么？我的情况是，即使有4个HAWQ段或1个HAWQ段，加载后的表大小也是369MB

我可以理解最小块大小是128MB，所以即使是30MB也会使用最小128MB，但为什么>300MB

你能分享一些关于这方面的信息吗？

你的蜂巢表可能被存储为ORC，并进行了快速压缩，而你的HAWQ表甚至没有被压缩。您应该在HAWQ表中使用：

with (appendonly=true, orientation=parquet, compresstype=snappy)