一個單詞統計的例項,怎樣通過MapReduce完成排序?
假設有一批海量的資料,每個資料都是由26個字母組成的字串,原始的資料集合是完全無序的,怎樣通過MapReduce完成排序工作,使其有序(字典序)呢?
對原始的資料進行分割(Split),得到N個不同的資料分塊:
例項分析:WordCount
這個類實現Mapper介面中的map 方法,輸入引數中的value 是文字檔案中的一行,利用StringTokenizer將這個字串拆成單詞,然後將輸出結果<單詞,1> 寫入到org.apache.hadoop.mapred.OutputCollector中。
實現Reduce 類
這個類實現Reducer 介面中的reduce 方法, 輸入引數中的key, values 是由Map 任務輸出的中間結果,
values 是一個Iterator, 遍歷這個Iterator, 就可以得到屬於同一個key 的所有value。
此處,key是一個單詞,value 是詞頻。只需要將所有的value 相加,就可以得到這個單詞的總的出現次數。
執行Job
在Hadoop中一次計算任務稱之為一個job, 可以通過一個JobConf物件設定如何執行這個job。
然後將JobConf物件作為引數,呼叫JobClient的runJob, 開始執行這個計算任務。
實驗結果
對原始的資料進行分割(Split),得到N個不同的資料分塊:
例項分析:WordCount
這個類實現Mapper介面中的map 方法,輸入引數中的value 是文字檔案中的一行,利用StringTokenizer將這個字串拆成單詞,然後將輸出結果<單詞,1> 寫入到org.apache.hadoop.mapred.OutputCollector中。
實現Reduce 類
這個類實現Reducer 介面中的reduce 方法, 輸入引數中的key, values 是由Map 任務輸出的中間結果,
values 是一個Iterator, 遍歷這個Iterator, 就可以得到屬於同一個key 的所有value。
此處,key是一個單詞,value 是詞頻。只需要將所有的value 相加,就可以得到這個單詞的總的出現次數。
執行Job
在Hadoop中一次計算任務稱之為一個job, 可以通過一個JobConf物件設定如何執行這個job。
然後將JobConf物件作為引數,呼叫JobClient的runJob, 開始執行這個計算任務。
實驗結果
相關文章
- MapReduce程式設計例項之自定義排序程式設計排序
- 詞頻統計mapreduce
- 作為程式設計師,我是怎麼通過一個方法記住7000個單詞的!程式設計師
- 統計一個字串中的單詞的個數,並列印各個單詞字串
- 瓦爾登湖單詞統計+排序排序
- 多個mapreduce連線例項
- pyton 統計單詞並排序-ok排序
- 第六篇:Eclipse上執行第一個Hadoop例項 - WordCount(單詞統計程式)EclipseHadoop
- **呼叫MapReduce對檔案中各個單詞出現的次數進行統計**
- 單例模式 - 只有一個例項單例模式
- Hadoop MapReduce之wordcount(詞頻統計)Hadoop
- oracle單例項通過dataguard遷移到RAC 轉Oracle單例
- js統計陣列中單詞出現次數程式碼例項JS陣列
- 一個簡單的MapReduce示例(多個MapReduce任務處理)
- MapReduce程式設計例項之倒排索引 1程式設計索引
- 呼叫MapReduce對檔案中單詞出現次數進行統計
- 加班一天終於完成RAC向單例項的遷移單例
- 10:單詞排序排序
- EasyUI - 一個簡單的後臺管理系統入門例項UI
- python 統計文章單詞個數Python
- 統計檔案中單詞個數
- Java的Socket通訊簡單例項Java單例
- MapReduce程式設計例項之資料去重程式設計
- MapReduce程式設計例項之自定義分割槽程式設計
- MapReduce應用案例--簡單排序排序
- 如何通過 Vue-Cli3 - Vuex 完成一個 TodoListVue
- 在Linux中呼叫MapReduce對檔案中各個單詞出現次數進行統計Linux
- Java中的策略模式,完成一個簡單地購物車,兩種付款策略例項教程Java模式
- 通過例項學習 PyTorchPyTorch
- C# 通過反射建立例項C#反射
- 通過例項學習 tcpdump 命令TCP
- 我是怎樣完成一個音悅臺下載程式的?
- Oracle 11g RAC 配置單例項 DataGuard(通過 DUPLICATE 方式)Oracle單例
- python 統計文章單詞個數-1Python
- python 統計文章單詞個數 -2Python
- 11GR2 Active Duplicate過程(單例項對單例項)單例
- 一個隱馬爾科夫模型的應用例項:中文分詞馬爾科夫模型中文分詞
- 通過反射獲取窗體例項反射