Ruby MongodB—提高处理多个集合的速度_Ruby_Mongodb

Ruby MongodB—提高处理多个集合的速度

ruby mongodb

Ruby MongodB—提高处理多个集合的速度,ruby,mongodb,Ruby,Mongodb,我正在使用MongoDB和Ruby，使用mongogem 我有以下情况：对于集合中的每个文档，例如coll1，请查看key1和key2 搜索另一个集合中的文档，例如coll2，其中包含key1和key2 如果存在匹配项，则在#1中引用的文档中添加在#2中获取的文档，并使用新键key3，其值应设置为key3 将更新的哈希插入新集合coll3 MongoDB的一般指导原则是在应用程序代码中处理交叉收集操作因此，我做了以下工作： client = Mongo::Client.new([ '

我正在使用MongoDB和Ruby，使用

mongo

gem

我有以下情况：

对于集合中的每个文档，例如

coll1

，请查看

key1

和

key2

搜索另一个集合中的文档，例如

coll2

，其中包含

key1

和

key2

如果存在匹配项，则在#1中引用的文档中添加在#2中获取的文档，并使用新键

key3

，其值应设置为

key3

将更新的哈希插入新集合

coll3

MongoDB的一般指导原则是在应用程序代码中处理交叉收集操作

因此，我做了以下工作：

    client = Mongo::Client.new([ '127.0.0.1:27017' ], :database => some_db, 
                               :server_selection_timeout => 5)
    cursor = client[:coll1].find({}, { :projection => {:_id => 0} }) # exclude _id
    cursor.each do |doc|
        doc_coll2 = client[:coll2].find('$and' => [{:key1 => doc[:key1]}, {:key2 => doc[:key2] }]).limit(1).first # no find_one method
        if(doc_coll2 && doc[:key3])
            doc_coll2[:key3] = doc[:key3]
            doc_coll2.delete(:_id) # remove key :_id
            client[:coll3].insert_one(doc_coll2)
        end
    end

这是可行的，但完成这项工作需要很多时间——在collection

coll1

中，每个文档大约需要250毫秒，或者大约15000条记录需要3600秒（1小时），这似乎是一个很大的工作量，可能与一次读取一个文档、执行签入应用程序代码，然后一次写入一个文档返回到新的集合有关

有没有办法让这项工作做得更快？我现在的做法是正确的吗

示例文档

coll1

{
    "_id" : ObjectId("588610ead0ae360cb815e55f"),
    "key1" : "115384042",
    "key2" : "276209",
    "key3" : "10101122317876"
}

coll2

{
    "_id" : ObjectId("788610ead0ae360def15e88e"),
    "key1" : "115384042",
    "key2" : "276209",
    "key4" : 10,
    "key5" : 4,
    "key6" : 0,
    "key7" : "false",
    "key8" : 0,
    "key9" : "false"
}

coll3

{
    "_id" : ObjectId("788610ead0ae360def15e88e"),
    "key1" : "115384042",
    "key2" : "276209",
    "key3" : "10101122317876",
    "key4" : 10,
    "key5" : 4,
    "key6" : 0,
    "key7" : "false",
    "key8" : 0,
    "key9" : "false"
}

使用
```
$lookup
```
使用
```
$unwind
```
使用
```
$redact
```
使用
```
$project
```
用
```
$out
```

db.coll1.aggregate([
    { "$lookup": { 
        "from": "coll2", 
        "localField": "key1", 
        "foreignField": "key1", 
        "as": "coll2_doc"
    }}, 
    { "$unwind": "$coll2_doc" },
    { "$redact": { 
        "$cond": [
            { "$eq": [ "$key2", "$coll2_doc.key2" ] }, 
            "$$KEEP", 
            "$$PRUNE"
        ]
    }}, 
    { 
      $project: {
         key1: 1, 
         key2: 1, 
         key3: 1, 
         key4: "$coll2_doc.key4",
         key5: "$coll2_doc.key5", 
         key6: "$coll2_doc.key6", 
         key7: "$coll2_doc.key7", 
         key8: "$coll2_doc.key8", 
     key9: "$coll2_doc.key9",  

      } 
    }, 
    {$out: "coll3"} 
], {allowDiskUse: true} );

db.coll3.find（）

{
    "_id" : ObjectId("588610ead0ae360cb815e55f"),
    "key1" : "115384042",
    "key2" : "276209",
    "key3" : "10101122317876",
    "key4" : 10,
    "key5" : 4,
    "key6" : 0,
    "key7" : "false",
    "key8" : 0,
    "key9" : "false"
}

$project

$addFields

$replaceRoot

db.coll1.aggregate([
    { "$lookup": { 
        "from": "coll2", 
        "localField": "key1", 
        "foreignField": "key1", 
        "as": "coll2_doc"
    }}, 
    { "$unwind": "$coll2_doc" },
    { "$redact": { 
        "$cond": [
            { "$eq": [ "$key2", "$coll2_doc.key2" ] }, 
            "$$KEEP", 
            "$$PRUNE"
        ]
    }}, 
    {$addFields: {"coll2_doc.key3": "$key3" }},
    {$replaceRoot: {newRoot: "$coll2_doc"}},
    {$out: "coll3"} 
], {allowDiskUse: true})

db.coll1.ensureIndex({"key1": 1, "key2": 1});
db.coll2.ensureIndex({"key1": 1, "key2": 1});

find

$project:

coll2

coll1

key3