Hadoop 如何使用MR引擎优化配置单元查询?
得到了一些基于作业的遗留查询,这些作业在我加入团队之前已经运行很久了。配置单元查询运行时间太长,我的任务是优化它们。在考虑Tez之前,有哪些好的参数可以帮助查询性能Hadoop 如何使用MR引擎优化配置单元查询?,hadoop,optimization,hive,mapreduce,Hadoop,Optimization,Hive,Mapreduce,得到了一些基于作业的遗留查询,这些作业在我加入团队之前已经运行很久了。配置单元查询运行时间太长,我的任务是优化它们。在考虑Tez之前,有哪些好的参数可以帮助查询性能mapreduce.input.fileinputformat.split.maxsize?您应该能够切换到Tez而无需任何参数调整,但是您应该在调整其他内容之前关注存储格式和分区。此外,在纱线容器上投入更多内存也会起作用。否则,你的问题太宽泛了。我们不知道您的查询或您的数据大小/类型Hanks@cricket_007。为这个模糊的场
mapreduce.input.fileinputformat.split.maxsize
?您应该能够切换到Tez而无需任何参数调整,但是您应该在调整其他内容之前关注存储格式和分区。此外,在纱线容器上投入更多内存也会起作用。否则,你的问题太宽泛了。我们不知道您的查询或您的数据大小/类型Hanks@cricket_007。为这个模糊的场景道歉。探索与Tez一起使用ORC文件格式。数据量非常小,因此令人沮丧。查看对各种连接的查询,并在必要时进行优化和压缩。如果数据小于HDFS块大小(甚至小于几GB),那么您可能应该使用实际的数据库,而不是Hadoop/HiveI。事实上,Hadoop/HiveI已经转向Tez,3小时的过程现在需要70分钟。