Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop HAWQ表大小估计_Hadoop_Greenplum_Hawq - Fatal编程技术网

Hadoop HAWQ表大小估计

Hadoop HAWQ表大小估计,hadoop,greenplum,hawq,Hadoop,Greenplum,Hawq,关于要加载到HAWQ中的表的存储大小计算/估计,我有一个问题 我在HIVE中有一个30MB的表,我正在尝试使用PXF将其加载到HAWQ中,例如: 从hcatalog.default.afs_trvn_mktscn_population创建表t2表空间数据,作为select* HAWQ中的表消耗了369MB的存储空间?无论我有多少HAWQ段,以及HAWQ DFS.replica因子或HDFS复制因子是什么?我的情况是,即使有4个HAWQ段或1个HAWQ段,加载后的表大小也是369MB 我可以理解最

关于要加载到HAWQ中的表的存储大小计算/估计,我有一个问题

我在HIVE中有一个30MB的表,我正在尝试使用PXF将其加载到HAWQ中,例如: 从hcatalog.default.afs_trvn_mktscn_population创建表t2表空间数据,作为select*

HAWQ中的表消耗了369MB的存储空间?无论我有多少HAWQ段,以及HAWQ DFS.replica因子或HDFS复制因子是什么?我的情况是,即使有4个HAWQ段或1个HAWQ段,加载后的表大小也是369MB

我可以理解最小块大小是128MB,所以即使是30MB也会使用最小128MB,但为什么>300MB


你能分享一些关于这方面的信息吗?

你的蜂巢表可能被存储为ORC,并进行了快速压缩,而你的HAWQ表甚至没有被压缩。您应该在HAWQ表中使用:

with (appendonly=true, orientation=parquet, compresstype=snappy)