Hadoop MapR体系结构与Cloudera体系结构

Hadoop MapR体系结构与Cloudera体系结构,hadoop,architecture,cloudera,infrastructure,mapr,Hadoop,Architecture,Cloudera,Infrastructure,Mapr,我熟悉Cloudera的基础架构或体系结构: 主节点包括NameNode、SecondaryNameNode、JobTracker和HMaster。 从属节点包括DataNode、TaskTracker和HRegionServer 主节点都应该位于它们自己的节点上(除非它是一个小型集群,而不是SecondaryNameNode、JobTracker和HMaster的组合,如果它是一个非常小的集群,甚至是NameNode) 从属节点应始终位于同一节点上。从属节点越多,越快乐 SecondaryNa

我熟悉Cloudera的基础架构或体系结构:

主节点包括NameNode、SecondaryNameNode、JobTracker和HMaster。 从属节点包括DataNode、TaskTracker和HRegionServer

主节点都应该位于它们自己的节点上(除非它是一个小型集群,而不是SecondaryNameNode、JobTracker和HMaster的组合,如果它是一个非常小的集群,甚至是NameNode)

从属节点应始终位于同一节点上。从属节点越多,越快乐

SecondaryNameNode是一个误称,除非您为了高可用性而启用它


MapR是否维护此设置?它有什么相似之处,又有什么不同之处?

MapR稍微偏离了普通的Hadoop和CDH发行版。它保留了大部分服务和结构(作业跟踪器、数据节点、HBase主机和区域、MR等),但也存在一些显著差异

关于MapR发行版的定义之一是它不使用HDFS。它有自己的定制FS,具有HA特性,并且无需命名节点(通过分布式元数据)即可运行。它还允许他们比Hadoop发行版的其他版本提前几年启用NFS访问,以及快照

自定义FS确实使它们的分布有点复杂,不过。。。例如,当您想要运行产品或服务时,通常需要安装特定于MapR的修补程序。当您想要运行mahout时,您需要使用来自的MapR补丁来编译它。但这也让他们有机会在FS级别整合更好的安全性,如“”和集群/作业/卷ACL的实现所示


总的来说,这是一个结构良好的产品。我最担心的是,他们已经偏离了规范,以至于当采用新的创新时,他们适应的速度很慢,因为它们必须融入到经过高度修改的环境中。纱线是一个完美的例子。。。他们还没有发布,尽管他们的竞争对手已经发布了。

由@JamCon in提供的好信息,但有一些事情值得澄清:

关于补丁的评论并不准确。MapR在其发行版中打包了广泛的Hadoop项目,因此您不必单独编译任何东西。MapR与其他发行版具有相同的api,这意味着它们的软件包不是关于兼容性的,而只是来自社区的bug修复/增强。让Hadoop生态系统项目在MapR上运行通常不需要额外的工作。据我所知,他们每月至少发布一次生态系统更新,以跟上新增强的步伐


关于纱线的加入,我们从2014年7月开始在大型集群上运行MapR!我相信MapR有自己的生态系统项目审查流程,一旦确定项目已准备好接受企业支持,他们就会将MapR打包版本升级到GA。

从MapR的架构角度来看,没有主节点。在典型的Hadoop体系结构中,主节点提供的功能在MapR的“数据节点”中分布和执行


MapR没有主节点、内置mechansim,但在Cloudera中有主节点、辅助名称节点和资源管理器

谢谢。作为更新,它看起来像是从2014年2月11日开始的,很好的一点。。。我从一月份起就没有检查过他们。事实上,我应该在下周与几位MapR工程师会面,讨论最新的更新!