Hive msck修复表是否需要hadoop/map reduce?

Hive msck修复表是否需要hadoop/map reduce?,hive,bigdata,partition,Hive,Bigdata,Partition,我希望运行Hive而不用费心运行hadoop/map reduce 我希望用户仅将配置单元用于元数据,并将spark、presto等用于查询/执行 我认为这通常会起作用,但我担心一些管理命令。具体来说,我需要知道msck修复表的工作原理 此命令是否需要map reduce才能正常工作,或者hive是否在metastore/etc中处理它?此命令不需要map reduce二进制文件 msck修复表 Map-Reduce(MR)是一个用于大规模并行计算的概念 如果您不使用Impala或其他执行引擎(

我希望运行Hive而不用费心运行hadoop/map reduce

我希望用户仅将配置单元用于元数据,并将spark、presto等用于查询/执行

我认为这通常会起作用,但我担心一些管理命令。具体来说,我需要知道msck修复表的工作原理


此命令是否需要map reduce才能正常工作,或者hive是否在metastore/etc中处理它?

此命令不需要map reduce二进制文件

msck修复表

Map-Reduce(MR)是一个用于大规模并行计算的概念

如果您不使用Impala或其他执行引擎(如Spark)进行处理,Hive将使用Map Reduce

在任何情况下,使用HDFS等都意味着Hadoop的安装,而且你会得到所有的MR goodies

当然,您可以在没有Hadoop的情况下运行Spark。也就是说,它的一些功能依赖于Hadoop二进制文件,例如拼花地板

编辑-从评论中提取此内容,同时接受,因为它非常有用:

这个链接的答案深入讨论了msck修复如何在封面下工作,并明确指出map reduce不是由它触发的


我对map reduce和spark等非常了解。我只是不明白hive是否会使用执行引擎来抓取命令的目录。仍然不是100%确定;这个链接说这个命令非常昂贵,但没有提到它是由元存储还是执行引擎完成的。你留下来了,它不需要执行引擎,对吧?JH,以你的评级,我真的希望如此!但为什么会这样呢?“考虑使用多个分区键的表(2-3个分区密钥在实践中是常见的)).msck repair必须对表目录下的所有子目录进行完整的树遍历,解析文件名,确保文件名有效,检查分区是否已存在于元存储中,然后添加元存储中不存在的唯一分区……”从我希望你被说服。你有没有发现一个我可能不知道的新见解?如果没有,请考虑接受答案。不要担心,我最终会回来回答,不必追问:)。这是一个漫长的工作周。您的答案是正确的,但您没有解释msck修复表是如何工作的(以及为什么它需要或不需要MR),您只是在谈论执行引擎。你在评论中给出的链接非常有用,很好地回答了我的问题,所以我将其纳入你的答案并接受了。谢谢