【大資料】離線批處理計算MapReduce | 複習筆記
一些介紹
分散式計算模型
批處理計算:(大容量靜態資料集)
- 有界、持久、大量
- 理需要訪問全套記錄,不適合對處理時間要求較高的場合
偷老師的圖:
常見計算模式
主要點在於分開mapper和reducer,然後確定每個<key,value>鍵值對的意義
-
求和模式(Summarization Pattern)
單詞統計:- map階段:輸入<key,value>是<網頁ID,網頁內容>,輸出<key,value>是<單詞,出現次數>
- reduce階段:累加相同key值的,輸出<單詞,出現次數>
- 補充:map和reduce間是shuffle階段,在shuffle階段,可以先對每一個map做combiner(合併相同的key對應的value,區域性reducer),然後做partitioner,通過hash等方式分配中間結果資料給reducer,實現負載均衡
-
過濾模式(Filtering Pattern)
- 簡單過濾:Map-Only
- TOP K:Mapper首先統計出資料塊內所有記錄中某個欄位滿足Top K條件的記錄子集,得到區域性Top K記錄。然後通過Reducer對這些區域性Top K記錄進一步篩選,獲得最終的全域性最大的K條記錄。
-
資料組織模式(Data Organization Pattern)
- 資料分片
- 全域性排序:“排序是MapReduce的天然特性”(a每個map輸出結果有序;b每個reduce輸入有序)但當多個reducer時,需要通過Partition策略,保證不同Reducer處理一個範圍區間的記錄。
例項
文字分析、頁面點選統計、專利引用統計
特點
- 優點:
- 極強的可擴充套件性
- 很好的容錯性,
- 簡單,使用者只需完成Map和Reduce
函式即可完成大規模資料的並行處理
- 缺點:
- 不適合對時效性要求較高的應用場景(Map和Reduce任務啟動時間較長)
- 不適合迭代運算類(在多處的磁碟讀/寫及網路傳輸過程)
K-Means演算法MapReduce化
- mapper處理根據簇中心重新分簇,輸出鍵值對為<cluster assigned to , 資料點自身>;
- combine階段,鍵值對<cluster id ,-【 # of data points of this cluster, mean】>;
- reducer處理根據分簇情況重新計算簇中心,鍵值對<該cluster 的id,該cluster的資料點的均值及對應於該均值的資料點的個數>
相關文章
- 大資料學習筆記(十七)-MapReduce大資料筆記
- 大資料計算的基石——MapReduce大資料
- 【計算機網路】資料鏈路層 | 複習筆記計算機網路筆記
- 離線資料處理-DataSet物件物件
- 處理海量資料的模式MapReduce,大規模資料集的並行運算模式並行
- Spark SQL:實現日誌離線批處理SparkSQL
- 計算機網路複習筆記計算機網路筆記
- 好程式設計師大資料學習路線分享MAPREDUCE程式設計師大資料
- 大資料學習筆記之十二 雲端計算資源管理大資料筆記
- 電商大資料學習筆記:理論大資料筆記
- 大資料,雲端計算學習路線大資料
- java大資料最全課程學習筆記(5)--MapReduce精通(一)Java大資料筆記
- 好程式設計師大資料學習路線之mapreduce概述程式設計師大資料
- 大資料學習筆記之九 雲端計算的內容大資料筆記
- 【批處理學習筆記】第十九課:字串合併筆記字串
- OPPO大資料離線計算平臺架構演進大資料架構
- YOLOv3學習筆記之資料處理YOLO筆記
- SpringMVC 學習筆記(四) 處理模型資料SpringMVC筆記模型
- 使用批處理重新啟動計算機計算機
- Windows批處理學習(二)——批處理(3)薦Windows
- 批處理----學習
- 機器學習筆記---資料預處理機器學習筆記
- 大資料學習筆記之十一 雲端計算應用分類大資料筆記
- 大資料爭論:批處理與流處理的C位之戰大資料
- 計算機小白大資料學習線路圖計算機大資料
- 好程式設計師大資料學習路線分享Map學習筆記程式設計師大資料筆記
- 好程式設計師大資料學習路線分享Actor學習筆記程式設計師大資料筆記
- 【Pandas學習筆記02】-資料處理高階用法筆記
- 【Pandas學習筆記02】處理資料實用操作筆記
- Python深度學習(處理文字資料)--學習筆記(十二)Python深度學習筆記
- JSP筆記-XML 資料處理JS筆記XML
- 大資料學習筆記之十 雲端計算、Web服務、網格計算的聯絡大資料筆記Web
- MapReduce中對大資料處理最合適的資料格式是什麼?大資料
- E-Mapreduce如何處理RDS的資料
- 好程式設計師大資料學習路線分享MapReduce全流程總結程式設計師大資料
- 好程式設計師大資料學習路線分享MapReduce全過程解析程式設計師大資料
- 超越批處理的世界:流計算101
- 超越批處理的世界:流計算101(現代資料處理概念的高層次概覽)