Hive 配置单元中的数据集大小是多少

Hive 配置单元中的数据集大小是多少,hive,bigdata,Hive,Bigdata,我的HDFS中有1 TB的.csv格式的数据。当我将它加载到配置单元表中时,数据的总大小是多少。我的意思是相同数据会有两个拷贝,即HDFS中有一个拷贝,Hive表中有另一个拷贝?请澄清。提前感谢。这取决于您是在配置单元中创建内部表还是外部表 如果您在配置单元中创建一个外部表,它将在HDFS中存储数据的位置上创建一个映射,并且不会有任何重复。Hive将自动拾取存储在HDFS中的数据 在此处阅读有关外部表的更多信息:如果创建配置单元外部表,则为该表提供HDFS位置,并将该数据存储到该特定位置 创建配

我的HDFS中有1 TB的.csv格式的数据。当我将它加载到配置单元表中时,数据的总大小是多少。我的意思是相同数据会有两个拷贝,即HDFS中有一个拷贝,Hive表中有另一个拷贝?请澄清。提前感谢。

这取决于您是在配置单元中创建内部表还是外部表

如果您在配置单元中创建一个外部表,它将在HDFS中存储数据的位置上创建一个映射,并且不会有任何重复。Hive将自动拾取存储在HDFS中的数据


在此处阅读有关外部表的更多信息:

如果创建配置单元外部表,则为该表提供HDFS位置,并将该数据存储到该特定位置

创建配置单元内部表配置单元时,请在
/apps/hive/warehouse/
目录中创建一个目录。 比如说,您的表名是
table1
,那么您的目录将是
/apps/hive/warehouse/table1

该目录也是一个HDFS目录,当您将数据加载到表中的内部表中时,它将进入其目录

配置单元在表和它们对应的HDFS位置之间创建映射,因此当您读取数据时,它将从对应的映射目录中读取数据

因此,不会有对应于表及其HDFS位置的重复数据副本

但是,如果在Hadoop集群中,数据复制系数设置为3(默认复制),那么它将占用3TB的集群磁盘空间(因为您有1TB的数据),但不会对配置单元表数据产生任何影响

请参阅下面的链接以了解有关数据复制的更多信息