Mongodb Hadoop Map/Reduce与内置Map/Reduce的比较
使用Hadoop map/reduce和Mongo的内置map/reduce在MongoDB上进行map/reduce工作的关键区别是什么Mongodb Hadoop Map/Reduce与内置Map/Reduce的比较,mongodb,hadoop,Mongodb,Hadoop,使用Hadoop map/reduce和Mongo的内置map/reduce在MongoDB上进行map/reduce工作的关键区别是什么 何时选择哪个地图/缩小引擎?每个引擎处理存储在mongodb中的数据的优缺点是什么?我对Hadoop MR没有太多经验,但我的印象是它只在HDFS上工作,因此您必须在HDFS中复制所有Mongo数据。如果您愿意复制所有数据,我想Hadoop MR比Mongo MR更快、更健壮。我的答案基于Hadoop MR的知识和经验以及Mongo DB MR的学习。 让我
何时选择哪个地图/缩小引擎?每个引擎处理存储在mongodb中的数据的优缺点是什么?我对Hadoop MR没有太多经验,但我的印象是它只在HDFS上工作,因此您必须在HDFS中复制所有Mongo数据。如果您愿意复制所有数据,我想Hadoop MR比Mongo MR更快、更健壮。我的答案基于Hadoop MR的知识和经验以及Mongo DB MR的学习。 让我们看看主要区别,然后尝试定义选择标准: 区别在于:
如果您需要简单的分组和筛选,请选择Mongo DB MR,不要期望map和reduce之间出现严重的混乱。换言之——简单的事情 如果您要做复杂的、计算密集的MR工作(例如一些回归计算),请选择hadoop MR。map和reduce之间存在大量或不可预测的数据,这也意味着Hadoop先生
Java是一种功能更强的语言,有更多的库,尤其是统计库。应该考虑到这一点。从MongoDB 2.4开始,MapReduce作业不再是单线程的
另外,请参阅,以了解在MongoDB中执行聚合和其他分析工作负载的更高性能、声明性方式。对于Hadoop,第3项肯定是不正确的。处理与数据的共用是Hadoop的基础。事实上并非如此。该项目帮助您直接在monogo数据上运行hadoop。无需迁移到hdfsHadoop,MR可以使用任何可以从java访问的数据源。不仅仅是HDFS。非常好的观点,谢谢。您认为将数据保存在Mongo中而不使用HDFS会有任何大的瓶颈吗?我的数据大小约为10 TB,结构高度结构化,我的计算既简单又复杂。将数据保存在Mongo中会给我们带来很多好处,但我不确定不使用HDFS是否会有问题?还有一个问题,可以肯定地说hadoop即使在简单的M/R作业上也会更快吗?我对Mongo DB的了解有限。据我所知,这个系统是为随机访问而构建的,是围绕索引构建的。这是一个为在线服务而构建的系统。同时,HDFS是为顺序访问而构建的,重扫描和所有折衷都是在这个方向上完成的。因此,我不期望MongoDB在扫描方面表现出色。。。有这么大的数据,这是一个棘手的问题,我认为需要更多的信息来决定。具体来说,影响Mongo DB性能是至关重要的。关于简单查询的性能,hadoop效率不高,它有几个层,MongoDB的轻量级MR实现,在系统内部工作可能具有优势。我们可以连接并讨论进行测试的正确方法。很好的一点,让我们实际这样做并连接,因为这可能是一个有价值的测试。