Hive 如何在配置单元中为批处理数据创建分层分区

Hive 如何在配置单元中为批处理数据创建分层分区,hive,schema,Hive,Schema,以2000年的数据为例 test.csv 国家代码、产品代码、rpt期间 美国,crd,2000年 美国,pcl,2000年 美国,mtg,2000年 2000年,crd,年 年,pcl,2000年 年,mtg,2000年 现在,我将新生成的2001记录附加到test.csv。将新数据添加到test.csv后,我的数据如下所示 append.csv 国家代码、产品代码、rpt期间 美国,crd,2000年 美国,pcl,2000年 美国,mtg,2000年 2000年,crd,年 年,pcl,2

以2000年的数据为例

test.csv 国家代码、产品代码、rpt期间 美国,crd,2000年 美国,pcl,2000年 美国,mtg,2000年 2000年,crd,年 年,pcl,2000年 年,mtg,2000年 现在,我将新生成的2001记录附加到test.csv。将新数据添加到test.csv后,我的数据如下所示

append.csv 国家代码、产品代码、rpt期间 美国,crd,2000年 美国,pcl,2000年 美国,mtg,2000年 2000年,crd,年 年,pcl,2000年 年,mtg,2000年 美国,crd,2001年 美国,pcl,2001年 美国,mtg,2001年 年,crd,2001年 年,pcl,2001年 年,mtg,2001年 在蜂巢中是否可能出现以下情况?如果是,请回答问题

  • 如何使用此数据为分区表
    Foo
    创建架构?。还有我 需要分区列作为国家代码和产品代码
  • 例如,我想加载(从test.csv文件记录)到表
    Foo
    ?使用蜂窝
    加载数据
    comand
  • 如何将append.csv(仅2001条记录)加载到表
    Foo
    。这也需要使用配置单元
    加载数据
    命令来完成

  • 谢谢。

    是的,您提到的所有场景都可以通过Hive实现

  • 创建临时表并加载所有数据,您可以使用前面提到的两列创建分区表
  • 对于2和3:只需load命令即可。若您打算加载到分区表中,那个么必须创建临时表并插入到分区表中


    让我知道这是你想要的,否则更新你的问题

    对于问题2和3:我不想创建临时表并插入到分区中,而是想使用LOAD命令将来自相应文件test.csv和append.csv的数据加载到分区表中。可能?否,使用配置单元查询(加载数据)。。。但是有一个调整,您可以直接将所需的数据放入分区文件夹,但要确保您放置了正确的数据(按照分区)。 country_code,product_code,rpt_period us,crd,2000 us,pcl,2000 us,mtg,2000 in,crd,2000 in,pcl,2000 in,mtg,2000 country_code,product_code,rpt_period us,crd,2000 us,pcl,2000 us,mtg,2000 in,crd,2000 in,pcl,2000 in,mtg,2000 us,crd,2001 us,pcl,2001 us,mtg,2001 in,crd,2001 in,pcl,2001 in,mtg,2001