Hive 配置单元:以只读方式将hdfs中的gzip CSV加载到表中

Hive 配置单元:以只读方式将hdfs中的gzip CSV加载到表中,hive,computer-vision,gzip,Hive,Computer Vision,Gzip,我有一个hdfs文件夹,里面有许多csv.gz,都具有相同的模式。我的客户需要通过配置单元读取这些表的内容 我试着申请。但是,它会移动文件,而我需要它保留在初始目录中 另一个问题是,我应该逐个加载每个文件,我宁愿从目录中创建一个表,而不是单独管理文件 我根本不懂蜂箱。他的可能吗?是的,这可以通过Hive实现。您可以创建一个外部表并引用包含gzip文件的现有HDFS位置。应在表创建期间指定数据的架构 hive> CREATE EXTERNAL TABLE my_data (

我有一个hdfs文件夹,里面有许多csv.gz,都具有相同的模式。我的客户需要通过配置单元读取这些表的内容

我试着申请。但是,它会移动文件,而我需要它保留在初始目录中

另一个问题是,我应该逐个加载每个文件,我宁愿从目录中创建一个表,而不是单独管理文件


我根本不懂蜂箱。他的可能吗?

是的,这可以通过
Hive
实现。您可以创建一个外部表并引用包含
gzip
文件的现有
HDFS
位置。应在表创建期间指定数据的架构

hive> CREATE EXTERNAL TABLE my_data 
      (
        column_1 int,
        column_2 string
      )
      LOCATION 'hdfs:///my_data_folder_with_gzip_files';

这个解决方案似乎有效。但事实并非如此,它可能会在从配置单元表读取数据时给出错误的结果。