程式師世界 >> 數據庫知識 >> MongoDB數據庫 >> MongoDB基礎知識 >> MongoDB Map Reduce

MongoDB Map Reduce

編輯：MongoDB基礎知識

MongoDB Map Reduce

Map-Reduce是一種計算模型，簡單的說就是將大批量的工作（數據）分解（MAP）執行，然後再將結果合並成最終結果（REDUCE）。

MongoDB提供的Map-Reduce非常靈活，對於大規模數據分析也相當實用。

MapReduce 命令

以下是MapReduce的基本語法：

>db.collection.mapReduce(
   function() {emit(key,value);},  //map 函數
   function(key,values) {return reduceFunction},   //reduce 函數
   {
      out: collection,
      query: document,
      sort: document,
      limit: number
   }
)

使用 MapReduce 要實現兩個函數 Map 函數和 Reduce 函數,Map 函數調用 emit(key, value), 遍歷 collection 中所有的記錄, 將key 與 value 傳遞給 Reduce 函數進行處理。

Map 函數必須調用 emit(key, value) 返回鍵值對。

參數說明:

map ：映射函數 (生成鍵值對序列,作為 reduce 函數參數)。
reduce 統計函數，reduce函數的任務就是將key-values變成key-value，也就是把values數組變成一個單一的值value。。
out 統計結果存放集合 (不指定則使用臨時集合,在客戶端斷開後自動刪除)。
query 一個篩選條件，只有滿足條件的文檔才會調用map函數。（query。limit，sort可以隨意組合）
sort 和limit結合的sort排序參數（也是在發往map函數前給文檔排序），可以優化分組機制
limit 發往map函數的文檔數量的上限（要是沒有limit，單獨使用sort的用處不大）

使用 MapReduce

考慮以下文檔結構存儲用戶的文章，文檔存儲了用戶的 user_name 和文章的 status 字段：

>db.posts.insert({
   "post_text": "菜鳥教程，最全的技術文檔。",
   "user_name": "mark",
   "status":"active"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "菜鳥教程，最全的技術文檔。",
   "user_name": "mark",
   "status":"active"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "菜鳥教程，最全的技術文檔。",
   "user_name": "mark",
   "status":"active"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "菜鳥教程，最全的技術文檔。",
   "user_name": "mark",
   "status":"active"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "菜鳥教程，最全的技術文檔。",
   "user_name": "mark",
   "status":"disabled"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "菜鳥教程，最全的技術文檔。",
   "user_name": "runoob",
   "status":"disabled"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "菜鳥教程，最全的技術文檔。",
   "user_name": "runoob",
   "status":"disabled"
})
WriteResult({ "nInserted" : 1 })
>db.posts.insert({
   "post_text": "菜鳥教程，最全的技術文檔。",
   "user_name": "runoob",
   "status":"active"
})
WriteResult({ "nInserted" : 1 })

現在，我們將在 posts 集合中使用 mapReduce 函數來選取已發布的文章(status:"active")，並通過user_name分組，計算每個用戶的文章數：

>db.posts.mapReduce( 
   function() { emit(this.user_name,1); }, 
   function(key, values) {return Array.sum(values)}, 
      {  
         query:{status:"active"},  
         out:"post_total" 
      }
)

以上 mapReduce 輸出結果為：

{
        "result" : "post_total",
        "timeMillis" : 23,
        "counts" : {
                "input" : 5,
                "emit" : 5,
                "reduce" : 1,
                "output" : 2
        },
        "ok" : 1
}

結果表明，共有4個符合查詢條件（status:"active"）的文檔，在map函數中生成了4個鍵值對文檔，最後使用reduce函數將相同的鍵值分為兩組。

具體參數說明：

result：儲存結果的collection的名字,這是個臨時集合，MapReduce的連接關閉後自動就被刪除了。
timeMillis：執行花費的時間，毫秒為單位
input：滿足條件被發送到map函數的文檔個數
emit：在map函數中emit被調用的次數，也就是所有集合中的數據總量
ouput：結果集合中的文檔個數（count對調試非常有幫助）
ok：是否成功，成功為1
err：如果失敗，這裡可以有失敗原因，不過從經驗上來看，原因比較模糊，作用不大

使用 find 操作符來查看 mapReduce 的查詢結果：

>db.posts.mapReduce( 
   function() { emit(this.user_name,1); }, 
   function(key, values) {return Array.sum(values)}, 
      {  
         query:{status:"active"},  
         out:"post_total" 
      }
).find()

以上查詢顯示如下結果，兩個用戶 tom 和 mark 有兩個發布的文章:

{ "_id" : "mark", "value" : 4 }
{ "_id" : "runoob", "value" : 1 }

用類似的方式，MapReduce可以被用來構建大型復雜的聚合查詢。

Map函數和Reduce函數可以使用 JavaScript 來實現，使得MapReduce的使用非常靈活和強大。

MongoDB基礎知識

window平台安裝MongoDB

window平台安裝 MongoDBMong

MongoDB PHP 擴展

MongoDBPHP 擴展本教程將向大家介紹

Linux平台安裝MongoDB

Linux平台安裝MongoDBMongoD

MongoDB Java

MongoDB Java環境配置在 Java

MongoDB 復制(副本集)

MongoDB 復制（副本集）MongoDB

PHP7 MongDB 安裝與使用

PHP7 MongDB 安裝與使用本文教程只

閱讀排行榜

MongoDB 創建數據庫 MongoDB $type 操作符 MongoDB Java MongoDB 連接 MongoDB 索引 MongoDB 監控 MongoDB Limit與Skip方法 MongoDB 條件操作符 MongoDB ObjectId MongoDB 自動增長 MongoDB 聚合

熱門圖文

Oracle數據庫系統緊急故障處理方法 MySQL在Linux下的表名如何不區分大小寫 SQL Server危險擴展刪除與恢復詳解在Oracle標識列裡插入特定的值 Oracle 10g 新特性之虛擬專用數據庫 MySQL heap使用大匯總 oracle的check約束 oracle日期格式化的實現

欄目導航

MongoDB基礎知識 MongoDB綜合知識