Hive 外部表(配置单元)仅从文件中选择少数列
如何从文件中仅创建几列的外部表设置 例:在存档中,我有六列,A、B、C、D、E、F。但在我的表中,我只需要A、C、FHive 外部表(配置单元)仅从文件中选择少数列,hive,external-tables,Hive,External Tables,如何从文件中仅创建几列的外部表设置 例:在存档中,我有六列,A、B、C、D、E、F。但在我的表中,我只需要A、C、F 有可能吗?我不知道有什么方法可以选择性地将HDFS文件中的列包含到外部表中。根据您的用例,基于外部表定义一个视图以仅包含所需的列就足够了。例如,给定以下外部表的愚蠢示例: hive> CREATE EXTERNAL TABLE ext_table ( > A STRING, > B STRING, > C STRING,
有可能吗?我不知道有什么方法可以选择性地将HDFS文件中的列包含到外部表中。根据您的用例,基于外部表定义一个视图以仅包含所需的列就足够了。例如,给定以下外部表的愚蠢示例:
hive> CREATE EXTERNAL TABLE ext_table (
> A STRING,
> B STRING,
> C STRING,
> D STRING,
> E STRING,
> F STRING
> )
> ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
> STORED AS TEXTFILE
> LOCATION '/tmp/ext_table';
OK
Time taken: 0.401 seconds
hive> SELECT * FROM ext_table;
OK
row_1_col_A row_1_col_B row_1_col_C row_1_col_D row_1_col_E row_1_col_F
row_2_col_A row_2_col_B row_2_col_C row_2_col_D row_2_col_E row_2_col_F
row_3_col_A row_3_col_B row_3_col_C row_3_col_D row_3_col_E row_3_col_F
Time taken: 0.222 seconds, Fetched: 3 row(s)
然后创建一个仅包含所需列的视图:
hive> CREATE VIEW filtered_ext_table AS SELECT A, C, F FROM ext_table;
OK
Time taken: 0.749 seconds
hive> DESCRIBE filtered_ext_table;
OK
a string
c string
f string
Time taken: 0.266 seconds, Fetched: 3 row(s)
hive> SELECT * FROM filtered_ext_table;
OK
row_1_col_A row_1_col_C row_1_col_F
row_2_col_A row_2_col_C row_2_col_F
row_3_col_A row_3_col_C row_3_col_F
Time taken: 0.301 seconds, Fetched: 3 row(s)
实现所需的另一种方法是,您需要能够修改支持外部表的HDFS文件—如果您感兴趣的列都在每行的开头,那么您可以定义外部表以仅捕获前3列(不考虑文件中实际还有多少列)。例如,使用与上述相同的数据文件:
hive> DROP TABLE IF EXISTS ext_table;
OK
Time taken: 1.438 seconds
hive> CREATE EXTERNAL TABLE ext_table (
> A STRING,
> B STRING,
> C STRING
> )
> ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
> STORED AS TEXTFILE
> LOCATION '/tmp/ext_table';
OK
Time taken: 0.734 seconds
hive> SELECT * FROM ext_table;
OK
row_1_col_A row_1_col_B row_1_col_C
row_2_col_A row_2_col_B row_2_col_C
row_3_col_A row_3_col_B row_3_col_C
Time taken: 0.727 seconds, Fetched: 3 row(s)
我找到了答案
您打算通过配置单元修改此数据,还是只读取它?谢谢您的回答,rchang。这是我们实际使用的方式。我们希望在create语句中这样做以简化我们的流程。有可能吗?@eldercaves在一般情况下,我不知道如何做您想做的事情。但是,我在本文末尾添加了另一种替代方法我的回答。这是一个非常特殊的情况,即您感兴趣的列位于每行的开头,您只想忽略行的其余部分(例如,您对12个字段中的前4个字段感兴趣)。投票结果是向上的。答案很有用。(不加任何注释的向下投票是一种不当行为。)这是为了甲骨文,不是为了蜂巢。
create table tmpdc_ticket(
SERVICE_ID CHAR(144),
SERVICE_TYPE CHAR(50),
CUSTOMER_NAME CHAR(200),
TELEPHONE_NO CHAR(144),
ACCOUNT_NUMBER CHAR(144),
FAULT_STATUS CHAR(50),
BUSINESS_GROUP CHAR(100)
)
organization external(
type oracle_loader
default directory sample_directory
access parameters(
records delimited by newline
nologfile
skip 1
fields terminated by '|'
missing field values are null
(DUMMY_1,
DUMMY_2,
SERVICE_ID CHAR(144),
SERVICE_TYPE CHAR(50),
CUSTOMER_NAME CHAR(200),
TELEPHONE_NO CHAR(144),
ACCOUNT_NUMBER CHAR(144),
FAULT_STATUS CHAR(50),
BUSINESS_GROUP CHAR(100)
)
)
location(sample_directory:'sample_file.txt')
)
reject limit 1
noparallel
nomonitoring;