Hadoop 配置单元启动时间大于执行时间_Hadoop_Amazon S3_Hive_Bigdata_Hadoop2

Hadoop 配置单元启动时间大于执行时间

hadoop amazon-s3 hive

Hadoop 配置单元启动时间大于执行时间,hadoop,amazon-s3,hive,bigdata,hadoop2,Hadoop,Amazon S3,Hive,Bigdata,Hadoop2,hive启动mapreduce作业所花费的时间比hadoop实际执行它所花费的时间要长。这是触发查询的表详细信息 CREATE EXTERNAL TABLE A ( user_id string, stage strig, url string ) PARTITIONED BY (dt string , id string) 表的所有数据都存储在S3中，每天大约有2000个唯一id，即每天添加2000个分区。我们可以假设每个分区平均有100MB的gzip压缩数据。

hive启动mapreduce作业所花费的时间比hadoop实际执行它所花费的时间要长。这是触发查询的表详细信息

CREATE EXTERNAL TABLE A
(
    user_id string,
    stage strig,
    url string
)

PARTITIONED BY (dt string , id string)

表的所有数据都存储在S3中，每天大约有2000个唯一id，即每天添加2000个分区。我们可以假设每个分区平均有100MB的gzip压缩数据。

现在，当我从WHERE dt>='20150101'运行一个查询，如SELECT DISTINCT user_id，以及一个EXPLAIN SELECT的dt多长时间。。。i、例如，只是解析查询，访问Metastore以获取有关表和分区的信息，访问HDFS+S3以列出所涉及的文件，检查统计信息（如果有），然后定义执行计划？是否有可能某些分区被另一个查询锁定，例如插入或更改，以便SELECT等待绿灯？Cf.SHOW LOCKS命令。@SamsonScharfrichter否由于这是一个原始日志表，所以没有对此表的写入权限。我想访问HDFS+S3以列出所涉及的文件需要花费很多时间，因为我在调试模式下运行查询，我得到了很多语句，比如添加输入文件……显示锁不是关于文件的权限，而是关于配置单元元存储一致性。例如，当其他人正在运行SELECT时，您不能删除表，反之亦然。