Hadoop 配置单元启动时间大于执行时间
hive启动mapreduce作业所花费的时间比hadoop实际执行它所花费的时间要长。 这是触发查询的表详细信息Hadoop 配置单元启动时间大于执行时间,hadoop,amazon-s3,hive,bigdata,hadoop2,Hadoop,Amazon S3,Hive,Bigdata,Hadoop2,hive启动mapreduce作业所花费的时间比hadoop实际执行它所花费的时间要长。 这是触发查询的表详细信息 CREATE EXTERNAL TABLE A ( user_id string, stage strig, url string ) PARTITIONED BY (dt string , id string) 表的所有数据都存储在S3中,每天大约有2000个唯一id,即每天添加2000个分区。我们可以假设每个分区平均有100MB的gzip压缩数据。
CREATE EXTERNAL TABLE A
(
user_id string,
stage strig,
url string
)
PARTITIONED BY (dt string , id string)
表的所有数据都存储在S3中,每天大约有2000个唯一id,即每天添加2000个分区。我们可以假设每个分区平均有100MB的gzip压缩数据。
现在,当我从WHERE dt>='20150101'运行一个查询,如SELECT DISTINCT user_id,以及一个EXPLAIN SELECT的dt多长时间。。。i、 例如,只是解析查询,访问Metastore以获取有关表和分区的信息,访问HDFS+S3以列出所涉及的文件,检查统计信息(如果有),然后定义执行计划?是否有可能某些分区被另一个查询锁定,例如插入或更改,以便SELECT等待绿灯?Cf.SHOW LOCKS命令。@SamsonScharfrichter否由于这是一个原始日志表,所以没有对此表的写入权限。我想访问HDFS+S3以列出所涉及的文件需要花费很多时间,因为我在调试模式下运行查询,我得到了很多语句,比如添加输入文件……显示锁不是关于文件的权限,而是关于配置单元元存储一致性。例如,当其他人正在运行SELECT时,您不能删除表,反之亦然。