Hive 在配置单元中加载预分区数据以供用户使用

Hive 在配置单元中加载预分区数据以供用户使用,hive,parquet,partition,sparklyr,Hive,Parquet,Partition,Sparklyr,我是个蜂巢新手,希望能得到一些帮助。我将按照下面的步骤,使用SparkyR将我的hdfs分区数据用于分析。根据指令,我需要首先将数据加载到配置单元表中 我的数据按年份和月份进行分区: /user/rstudio-user/mydata/year=2010/month=1 /user/rstudio-user/mydata/year=2010/month=2 ... /user/rstudio-user/mydata/year=2020/month=1 ... /* and so on for e

我是个蜂巢新手,希望能得到一些帮助。我将按照下面的步骤,使用SparkyR将我的hdfs分区数据用于分析。根据指令,我需要首先将数据加载到配置单元表中

我的数据按年份和月份进行分区:

/user/rstudio-user/mydata/year=2010/month=1
/user/rstudio-user/mydata/year=2010/month=2
...
/user/rstudio-user/mydata/year=2020/month=1
...
/* and so on for every single month from 2010 to 2020 */
每个目录中都有多个拼花文件:

/user/rstudio-user/mydata/year=2010/month=1/file_part1.parquet
/user/rstudio-user/mydata/year=2010/month=1/file_part2.parquet
...
我在将数据加载到配置单元表时遇到困难。我假设需要手动指定每个目录。这就是我所尝试的:

CREATE EXTERNAL TABLE IF NOT EXISTS mydata
(prefix string,
key string,
value float,
time timestamp)
PARTITIONED BY 
(year int,
month int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'

LOAD DATA INPATH '/user/rstudio-user/mydata/year=2010/month=1' INTO TABLE mydata PARTITION (year='2020', month='1');
除了指定每年和每月之外,还有更好的方法吗?非常感谢您的帮助