Hadoop 将数据从hdfs导入hbase是否会创建副本

Hadoop 将数据从hdfs导入hbase是否会创建副本,hadoop,hive,hbase,apache-pig,hdfs,Hadoop,Hive,Hbase,Apache Pig,Hdfs,我对Hbase的概念非常陌生。我知道HBase的底层文件系统仅为HDFS 我只是想了解,如果在一个集群中,HDFS中已经有一些数据。我尝试在HBase中导入它(使用Pig/Hive脚本),它是否会以HBase支持的形式(HFiles)在HDFS中创建相同数据的另一个副本(因为HBase的底层文件系统是HDFS) 或者它将创建对相同HDFS数据的引用?是的,它将在HDFS中存储导入数据的副本(作为StoreFiles/HFiles),因为HBase只能使用自己的一组文件进行操作。也许你会发现这很有

我对Hbase的概念非常陌生。我知道HBase的底层文件系统仅为HDFS

我只是想了解,如果在一个集群中,HDFS中已经有一些数据。我尝试在HBase中导入它(使用Pig/Hive脚本),它是否会以HBase支持的形式(HFiles)在HDFS中创建相同数据的另一个副本(因为HBase的底层文件系统是HDFS)


或者它将创建对相同HDFS数据的引用?

是的,它将在HDFS中存储导入数据的副本(作为StoreFiles/HFiles),因为HBase只能使用自己的一组文件进行操作。也许你会发现这很有趣

您可以直接使用HDFS中存储的数据进行操作,而无需使用以下命令将其导入HBase:

createexternaltablepage\u视图(viewTime INT、userid BIGINT、,
页面url字符串,参考者url字符串,
ip字符串注释“用户的ip地址”,
国家/地区字符串注释“来源国”)
注释“这是临时页面视图表”
以“\054”结尾的行格式分隔字段
存储为文本文件
位置“”;
在Hadoop世界中,拥有同一数据的多个副本(尽管格式不同)不应该是一个问题,因为存储不被视为限制因素,因为它基于商品硬件,所以成本低廉且易于扩展。事实上,如果您有足够的输入数据,您的Hive/Pig/MapReduce作业通常需要数百甚至数千GB(中间数据)来处理作业

CREATE EXTERNAL TABLE page_view(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT 'IP Address of the User',
     country STRING COMMENT 'country of origination')
 COMMENT 'This is the staging page view table'
 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\054'
 STORED AS TEXTFILE
 LOCATION '<hdfs_location>';