Mongodb Mongo映射/减少大型集合上的减速_Mongodb_Mapreduce

Mongodb Mongo映射/减少大型集合上的减速

mongodb mapreduce

Mongodb Mongo映射/减少大型集合上的减速,mongodb,mapreduce,Mongodb,Mapreduce,我们有一个看似简单的map/reduce任务，每天都要记录数据。在开发服务器上，我们可以在大量文档上运行此作业，大约1百万个文档，这大约需要一分钟，没有问题。我们将作业转移到生产服务器，即AmazonEC2服务器，该作业将以非常快的速度遍历大约50%的行，然后遍历其余的数据。浏览数十万份文件可能需要几个小时，而不是预期的一两分钟。因此，我希望我们在地图/减少工作中犯了一个明显的错误以下是一个示例输入文档： { "_id" : ObjectId("4f147a92d72b292c0200

我们有一个看似简单的map/reduce任务，每天都要记录数据。在开发服务器上，我们可以在大量文档上运行此作业，大约1百万个文档，这大约需要一分钟，没有问题。我们将作业转移到生产服务器，即AmazonEC2服务器，该作业将以非常快的速度遍历大约50%的行，然后遍历其余的数据。浏览数十万份文件可能需要几个小时，而不是预期的一两分钟。因此，我希望我们在地图/减少工作中犯了一个明显的错误

以下是一个示例输入文档：

{ "_id" : ObjectId("4f147a92d72b292c02000057"), "cid" : 25, "ip" : "123.45.67.89", "b" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_8) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7", "r" : "", "l" : "en-US,en;q=0.8", "ts" : ISODate("2012-01-16T19:29:22Z"), "s" : 0, "cv" : "4f143a5fd72b292d7f000007", "c" : "" } { “_id”：ObjectId（“4f147a92d72b292c02000057”）， “cid”：25， “ip”：“123.45.67.89”， “b”：“Mozilla/5.0（Macintosh；英特尔Mac OS X 10_6_8）AppleWebKit/535.7（KHTML，类似Gecko）Chrome/16.0.912.63 Safari/535.7”， “r”：“， “l”：“en-US，en；q=0.8”， “ts”：ISODate（“2012-01-16T19:29:22Z”）， “s”：0， “cv”：“4f143a5fd72b292d7f000007”， “c”：” } 我们只查询一系列的_id

以下是地图代码：

function() { var browser = {} ,referrer = {}; browser[this.b] = { 'count': 1 }; referrer[this.r] = { 'count': 1 }; var objEmit = { 'count': 1 ,'browsers' : browser ,'referrers' : referrer }; var date = this._id.getTimestamp(); date.setHours(0); date.setMinutes(0); date.setSeconds(0); emit({'cv' : this.cv, 'date' : date, 'cid' : this.cid }, objEmit); }; 函数（）{ 变量浏览器={} ，referer={}；浏览器[this.b]={ “计数”：1 }; 推荐人[this.r]={ “计数”：1 }; var objEmit={ “计数”：1 ，“浏览器”：浏览器 “推荐人”：推荐人 }; var date=this.\u id.getTimestamp（）；日期.设定时间(0);；日期。设置分钟数（0）；日期。设置秒（0）；发出（{'cv'：this.cv，'date'：date，'cid'：this.cid}，objEmit）； }; 以下是reduce代码：

function (key, emits) { var total = 0 ,browsers = {} ,referrers = {}; for (var i in emits) { total += emits[i].count; for (var key in emits[i].browsers) { if (emits[i].browsers.hasOwnProperty(key)) { !(browsers[key]) && (browsers[key] = { count : 0 }); browsers[key].count += emits[i].browsers[key].count; } } for (var key in emits[i].referrers) { if (emits[i].referrers.hasOwnProperty(key)) { !(referrers[key]) && (referrers[key] = { count : 0 }); referrers[key].count += emits[i].referrers[key].count; } } } return {'count' : total, 'browsers' : browsers, 'referrers' : referrers} }; 功能（键，发射）{ var总计=0 ，浏览器={} ，referers={}；用于（发射中的var i）{ 总数+=发射[i]。计数； for（emits[i]中的var键）。浏览器）{ if（emits[i].browsers.hasOwnProperty（key））{ ！（浏览器[键]&&（浏览器[键]={count:0}）；浏览器[key].count+=emits[i]。浏览器[key].count； } } for（变量键在emits[i]中）。referers）{ if（emits[i].referers.hasOwnProperty（key））{ ！（referers[key]）&&（referers[key]={count:0}）； referers[key].count+=emits[i]。referers[key].count； } } } 返回{'count'：总计，'browsers'：浏览器，'referers'：referers} }; 没有finalize，我们将map/reduce作业输出到现有集合，并将“merge”选项设置为true

非常感谢您的帮助。

因为这是在开发和生产环境中运行的同一代码，而且您在开发环境中运行的代码集非常大，并且返回速度非常快，您怀疑代码可能有问题的具体原因是什么

您是否可能正在微实例上运行？如果您不知道，这可能会破坏您的Map Reduce活动，因为它会导致在不允许处理的情况下建立一个巨大的数据队列（I/O不是以相同的方式被限制的，因此这种情况会不断出现，Linux内核会将其大部分时间用于管理，并使情况变得更糟）

即使在CPU速度较低的情况下，从微型到小型的切换也可能会对您有所帮助，因为您需要处理一个恒定的CPU周期“流”（就像普通机器一样），MongoDB的内部调度可能会更好地适应

这以前可能不是问题，因为正常的查询“峰值”持续时间不足以导致CPU限制开启。

谢谢。CPU的使用似乎取决于生产，因此这可能是正确的。我们应该使用的不是微型实例，而是“高内存双倍超大”。您的开发机器有什么规格？这种情况不应该有这些问题。我还将研究MongoDB在开发和生产上的设置。它们是否具有相同的版本、相同的设置、相同的体系结构（开发和生产都是64位）？