舉例

有一個1G大小的一個檔案，裡面每一行是一個詞，詞的大小不超過16位元組，記憶體限制大小是1M。返回頻數最高的100個詞。

思路

首先把檔案分開
針對每個檔案hash遍歷，統計每個詞語的頻率
使用堆進行遍歷
把堆歸併起來

具體的方案

1.分治：順序讀檔案中，對於每個詞c，取hash(c)%2000，然後按照該值存到2000個小檔案中。這樣每個檔案大概是500k左右。

注意：

如果其中的有的檔案超過了1M大小，還可以按照類似的方法繼續往下分，直到分解得到的小檔案的大小都不超過1M。

2.hash遍歷：對每個小檔案，用hash的方式統計每個檔案中出現的詞以及相應的頻率

3.堆遍歷：用最小堆取出出現頻率最大的100個詞，並把100個詞及相應的頻率存入檔案，這樣又得到了5000個檔案。

4.歸併整合

下一步就是把這5000個檔案進行歸併（類似與歸併排序）的過程了。

10.鞏固學習PriorityQueue類------海量資料處理的 Top K演算法(問題) 小頂堆實現
2020-12-19
演算法
經典面試問題: Top K 之 —- 海量資料找出現次數最多或，不重複的。
2019-03-04
面試
經典面試問題: Top K 之 ---- 海量資料找出現次數最多或，不重複的。
2018-03-09
面試
BFPRT 演算法（TOP-K問題）
2017-10-24
演算法
經典的 Top K 問題，你真的懂了麼？
2019-01-28
經典演算法-最大流問題
2016-12-14
演算法
google經典演算法面試題-雞蛋問題
2019-02-03
Go演算法面試題
N道大資料海量資訊處理演算法面試集錦
2018-09-04
大資料演算法面試
海量資料處理
2018-03-08
【經典演算法問題】馬的遍歷【回溯】
2014-04-08
演算法
經典面試問題：12小球問題演算法(原始碼)
2008-01-03
面試演算法原始碼
海量資料處理：十道面試題與十個海量資料處理方法總結
2014-08-18
面試題
海量資料處理2
2018-08-28
海量資料處理（轉）
2010-06-21
海量資料處理問題知識點複習手冊
2019-03-04
經典演算法面試題(二)
2016-03-26
演算法面試題
機器學習經典演算法之K-Means
2019-07-01
機器學習演算法
[經典演算法]海盜分金問題sql求解（貪心演算法）
2018-08-02
演算法SQL
資料探勘十大經典演算法
2020-11-03
演算法
數字影像處理，經典對比度增強演算法
2014-07-28
演算法
海量資料處理_批量插入
2011-05-31
海量資料處理_批量更新
2011-05-30
經典演算法
2017-04-05
演算法
【演算法與資料結構】經典排序演算法總結
2018-10-03
演算法資料結構排序
關於海量資料處理分析的經驗總結
2015-05-18
經典資料結構和演算法回顧
2015-08-02
資料結構演算法
機器學習經典聚類演算法 —— k-均值演算法（附python實現程式碼及資料集）
2019-07-31
機器學習聚類演算法Python
資料結構與演算法JavaScript(五) ：串(經典KMP演算法)
2015-01-16
資料結構演算法JavaScriptKMP
海量資料的併發處理
2018-03-14
海量資料處理_表分割槽
2011-05-31
PHP處理海量樣本相似度聚類演算法
2016-08-05
PHP聚類演算法
Lisp經典演算法
2018-03-26
Lisp演算法
資料處理--pandas問題
2024-08-04
機器學習經典分類演算法 —— k-近鄰演算法（附python實現程式碼及資料集）
2019-07-29
機器學習演算法Python
幾道和「黑洞照片」那種海量資料有關的演算法問題
2019-04-11
演算法
海量資料處理利器greenplum——初識
2016-08-17
迴文數系列題目(經典演算法)
2014-06-01
演算法
海量資料處理_資料泵分批資料遷移
2011-06-10

經典演算法-海量資料處理演算法（top K問題）

舉例

思路

具體的方案

注意：

相關文章