Hadoop 我需要一个蜂巢样本项目的实践。如何处理大型数据库表?我们如何在配置单元中实际实现查询?

Hadoop 我需要一个蜂巢样本项目的实践。如何处理大型数据库表?我们如何在配置单元中实际实现查询?,hadoop,hive,bigdata,hiveql,Hadoop,Hive,Bigdata,Hiveql,我对Hadoop比较熟悉。我想在Hive上做一个项目。我有蜂巢的基本知识。但我想知道如何加载大型表并对其运行查询 请分享任何项目的细节 阿帕奇蜂巢™ 数据仓库软件有助于查询和管理驻留在分布式存储中的大型数据集。Hive提供了一种机制,可以将结构投影到此数据上,并使用一种称为HiveQL的类似SQL的语言查询数据 看看ApacheHive和 看一看从java连接的示例代码 更多配置单元教程链接 加载数据的示例 有多种方法可以将数据加载到配置单元表中。用户可以创建指向HDFS中指定位置的外部表

我对Hadoop比较熟悉。我想在Hive上做一个项目。我有蜂巢的基本知识。但我想知道如何加载大型表并对其运行查询

请分享任何项目的细节

阿帕奇蜂巢™ 数据仓库软件有助于查询和管理驻留在分布式存储中的大型数据集。Hive提供了一种机制,可以将结构投影到此数据上,并使用一种称为HiveQL的类似SQL的语言查询数据

看看ApacheHive和

看一看从java连接的示例代码

更多配置单元教程链接

加载数据的示例

有多种方法可以将数据加载到配置单元表中。用户可以创建指向HDFS中指定位置的外部表。在这种特殊用法中,用户可以使用HDFS put或copy命令将文件复制到指定位置,并创建一个包含所有相关行格式信息的指向该位置的表。完成此操作后,用户可以转换数据并将其插入到任何其他配置单元表中

例如,如果文件/tmp/pv_2008-06-08.txt包含2008-06-08上提供的逗号分隔的页面视图,并且需要将其加载到相应分区的页面视图表中,则以下命令序列可以实现这一点:

CREATE EXTERNAL TABLE page_view_stg(viewTime INT, userid BIGINT,
                page_url STRING, referrer_url STRING,
                ip STRING COMMENT 'IP Address of the User',
                country STRING COMMENT 'country of origination')
COMMENT 'This is the staging page view table'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '44' LINES TERMINATED BY '12'
STORED AS TEXTFILE
LOCATION '/user/data/staging/page_view';

hadoop dfs -put /tmp/pv_2008-06-08.txt /user/data/staging/page_view

FROM page_view_stg pvs
INSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country='US')
SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, null, null, pvs.ip
WHERE pvs.country = 'US';

pv_2008-06-08.txt文件来自哪里?