【大資料】離線批處理計算MapReduce | 複習筆記
一些介紹
分散式計算模型
批處理計算:(大容量靜態資料集)
- 有界、持久、大量
- 理需要訪問全套記錄,不適合對處理時間要求較高的場合
偷老師的圖:
常見計算模式
主要點在於分開mapper和reducer,然後確定每個<key,value>鍵值對的意義
-
求和模式(Summarization Pattern)
單詞統計:- map階段:輸入<key,value>是<網頁ID,網頁內容>,輸出<key,value>是<單詞,出現次數>
- reduce階段:累加相同key值的,輸出<單詞,出現次數>
- 補充:map和reduce間是shuffle階段,在shuffle階段,可以先對每一個map做combiner(合併相同的key對應的value,區域性reducer),然後做partitioner,通過hash等方式分配中間結果資料給reducer,實現負載均衡
-
過濾模式(Filtering Pattern)
- 簡單過濾:Map-Only
- TOP K:Mapper首先統計出資料塊內所有記錄中某個欄位滿足Top K條件的記錄子集,得到區域性Top K記錄。然後通過Reducer對這些區域性Top K記錄進一步篩選,獲得最終的全域性最大的K條記錄。
-
資料組織模式(Data Organization Pattern)
- 資料分片
- 全域性排序:“排序是MapReduce的天然特性”(a每個map輸出結果有序;b每個reduce輸入有序)但當多個reducer時,需要通過Partition策略,保證不同Reducer處理一個範圍區間的記錄。
例項
文字分析、頁面點選統計、專利引用統計
特點
- 優點:
- 極強的可擴充套件性
- 很好的容錯性,
- 簡單,使用者只需完成Map和Reduce
函式即可完成大規模資料的並行處理
- 缺點:
- 不適合對時效性要求較高的應用場景(Map和Reduce任務啟動時間較長)
- 不適合迭代運算類(在多處的磁碟讀/寫及網路傳輸過程)
K-Means演算法MapReduce化
- mapper處理根據簇中心重新分簇,輸出鍵值對為<cluster assigned to , 資料點自身>;
- combine階段,鍵值對<cluster id ,-【 # of data points of this cluster, mean】>;
- reducer處理根據分簇情況重新計算簇中心,鍵值對<該cluster 的id,該cluster的資料點的均值及對應於該均值的資料點的個數>
相關文章
- 大資料計算的基石——MapReduce大資料
- 【計算機網路】資料鏈路層 | 複習筆記計算機網路筆記
- 計算機網路複習筆記計算機網路筆記
- 好程式設計師大資料學習路線分享MAPREDUCE程式設計師大資料
- 機器學習筆記---資料預處理機器學習筆記
- java大資料最全課程學習筆記(5)--MapReduce精通(一)Java大資料筆記
- Spark SQL:實現日誌離線批處理SparkSQL
- 好程式設計師大資料學習路線之mapreduce概述程式設計師大資料
- YOLOv3學習筆記之資料處理YOLO筆記
- JSP筆記-XML 資料處理JS筆記XML
- Python深度學習(處理文字資料)--學習筆記(十二)Python深度學習筆記
- 【Pandas學習筆記02】-資料處理高階用法筆記
- 【Pandas學習筆記02】處理資料實用操作筆記
- OPPO大資料離線計算平臺架構演進大資料架構
- Hadoop大資料實戰系列文章之Mapreduce 計算框架Hadoop大資料框架
- MapReduce中對大資料處理最合適的資料格式是什麼?大資料
- 大資料爭論:批處理與流處理的C位之戰大資料
- 好程式設計師大資料學習路線分享Actor學習筆記程式設計師大資料筆記
- 好程式設計師大資料學習路線分享Map學習筆記程式設計師大資料筆記
- 計算機小白大資料學習線路圖計算機大資料
- 好程式設計師大資料學習路線分享MapReduce全過程解析程式設計師大資料
- 好程式設計師大資料學習路線分享MapReduce全流程總結程式設計師大資料
- MySQL 處理重複資料MySql
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- React學習筆記-事件處理React筆記事件
- 好程式設計師大資料學習路線分享TCP和UDP學習筆記程式設計師大資料TCPUDP筆記
- 【大資料】BigTable分散式資料儲存系統分散式資料庫 | 複習筆記大資料分散式資料庫筆記
- 資料處理之去除重複資料
- 計算理論導論筆記筆記
- pandas 處理資料和crc16計算
- 機器學習演算法筆記之6:資料預處理機器學習演算法筆記
- 02142資料結構導論複習筆記資料結構筆記
- 好程式設計師大資料學習路線分享執行緒學習筆記二程式設計師大資料執行緒筆記
- 好程式設計師大資料學習路線分享多執行緒學習筆記程式設計師大資料執行緒筆記
- Vue學習筆記之事件處理Vue筆記事件
- 大資料之 Hadoop學習筆記大資料Hadoop筆記
- 好程式設計師大資料培訓教你快速學習MapReduce程式設計師大資料
- 【雲端計算與大資料處理技術】公開課實況大資料