关于Hadoop和Hive的基本知识

关于Hadoop和Hive的基本知识,hadoop,hive,Hadoop,Hive,我最近开始使用Hadoop。我通过配置单元访问一个名为Checkout的表。下面是数据进入HDFS和其他信息的路径。那么,如果我必须阅读下面三行,我能得到什么信息呢 Path Size Record Count Date Loaded /sys/edw/dw_checkout_trans/snapshot/2012/07/04/00 1.13 TB 9,29

我最近开始使用Hadoop。我通过配置单元访问一个名为Checkout的表。下面是数据进入HDFS和其他信息的路径。那么,如果我必须阅读下面三行,我能得到什么信息呢

          Path                                      Size           Record Count      Date Loaded
/sys/edw/dw_checkout_trans/snapshot/2012/07/04/00   1.13 TB       9,294,245,800      2012-07-05 07:26
/sys/edw/dw_checkout_trans/snapshot/2012/07/03/00   1.13 TB       9,290,477,963      2012-07-04 09:37
/sys/edw/dw_checkout_trans/snapshot/2012/07/02/00   1.12 TB       9,286,199,847      2012-07-03 07:08
所以我的问题是-

1) 首先,我们将数据加载到HDFS,然后通过Hive查询数据以返回结果?对吧?

2) 其次,当您查看上述路径和其他内容时,我唯一感到困惑的是,当我使用Hive进行查询时,我将从上述所有三条路径获取数据?还是最近一次登上榜首


因为我对这些东西不熟悉,所以我有很多问题。谁能解释一下hive从哪里获取数据?我们将所有数据存储在HDFS中,然后使用Hive或Pig从HDFS获取数据?如果有人能提供Hadoop和Hive的高级知识,那就太好了。

我认为您需要了解Hive的本机表和Hive的外部表之间的区别
配置单元本机表意味着您将数据加载到配置单元中,它负责数据在HDFS中的存储方式。在这种情况下,我们通常不关心什么是目录结构
配置单元外部表意味着我们将数据放在某个目录中(如果我们暂时忘记分区的话),然后告诉配置单元-这是表的数据。请这样对待我。而配置单元使我们能够查询它,与其他外部或常规表联接。我们有责任添加数据、删除数据等