經典面試問題: Top K 之 —- 海量資料找出現次數最多或，不重複的。

林冠巨集發表於2019-03-04

原文網址 : https://flycode.co/archives/271390

面試

作者：林冠巨集 / 指尖下的幽靈

掘金：https://juejin.im/user/587f0dfe128fe100570ce2d8

部落格：http://www.cnblogs.com/linguanh/

GitHub ： https://github.com/af913337456/

騰訊雲專欄： https://cloud.tencent.com/developer/user/1148436/activities

`僅列舉一些解決方法，事實的解決方案是非常多的。`

這些問題都是面臨著有如下的考慮：

記憶體不足以放下所有的數。
機器CPU的核數不夠。
…

問這些問題的意義：

如果能把這些問題答好，必然是綜合計算機各方面的知識，從記憶體到資料結構甚至還涉及到硬體，方法面面。至此，我給它定位是，綜合考量一個程式設計師計算機基礎能力的面試題。

一，找出不重複的

在2.5億個正整數中找出不重複的整數。

思路一：

`分治法 + HashMap` (HashMap 不要侷限在 Java 語言)

將 2.5 億個整數，分批操作，例如分成 250 萬一批，共100批次。每批使用迴圈遍歷一次，存入 HashMap<int1,int2> 裡面，int1 對應這個數，int2 對應它出現的次數，沒出現就預設是 1 次。每操作完一批，就進行當前的 HashMap 的去重操作，讀出 int2 > 1 的，排除掉。接下來的批次，以此類推，得出 100，剩下的自然就是不重複的。

好了，我們現在來計算下上面這個方案的雙間複雜度，`時間` & `空間`

時間複雜度：250W * 100輪 + 其它批次。對於多核機器，可以啟動執行緒操作。

空間複雜度：使用 int 來進行存每一個數，保證不溢位情況下，那麼就是 –> Key + Value : (250W * 4位元組，4Byte)/(1024*1024) ~ (Key + 9.5MB) 記憶體。

思路二：

`點陣圖法 Bitmap`(一個 bit 僅會是 0 或 1)

對於此題，我們可以設計每兩個 bit 位，標示一個數的出現情況。00表示沒有出現，01表示出現一次，10表示出現多次。2.5 億個正整數，首先我們要知道是正整數，我們就不需要考慮負數，也就是無符號，無符號的整形佔四個位元組。

我們以這個為例子，開始計算`點陣圖`記憶體。

1B = 8b，4B = 32b，它可以表示的最大的整數是 2^32-1(不溢位)，也就是說，我們需要 2^32-1 ~ 2^32 個位來表示這2.5億個數。我們上面說了，每個狀態是兩個位，那麼總共就是2^32*2個位。

那麼我們可以一次申請的點陣圖記憶體是：2^32*2 bit ，(2^32*2)/(1024*1024*8) = 1GB 即可。當然，我們也可以加上分治的思路，分批處理，不用直接用 1G，哈哈。

那麼這樣做的情況下怎樣找到這個數呢？我舉個例子，例如我們此時讀入一個數是：64，64對應的所在bit位是：64*2=128，也就是說第 127 和 128 位共同標示了它的出現狀態。其他的以此類推。每當我們讀出一個數，我們就這樣去找到它對應的bit位，先讀出bit位的值，再做記錄，已經是01的，再次來到，那麼就應該修改為10。最後的我們這樣得出結果：掃描整個點陣圖，如果是10的，就下標/2得出這個數。

二，找出出現次數最多的

第一題：找出一篇文章中，出現次數最多的單詞。

第二題：10億個正整數找出重複次數最多的100個整數。

思路一：

`分治法 + HashMap`

沒錯，分治法 + HashMap 這個方法就是可以用來處理很多 Top K問題的。

對於問題一，其實比較簡單，這道題也是我 2016 年騰訊第三輪技術面要求當場寫程式碼的題目。我們可以先判斷，這篇文章可能很長，也可能很短，那麼我們應該規定一個字數的標誌，作為一批的字數限制，例如100個文字。每100個文字是一批的處理極限，我們先讀出100個，100以內的就直接全部讀出。讀出後，打散成字串，例如英語文章它以空格和一些符號分割。使用split方法就可以打散。此時我們得出一個字串陣列String[] array，有了這個之後就可以參考 找出不重複 問題的解法。每批使用迴圈遍歷一次，存入 HashMap<String,Integer> 裡面，string 對應這個數的字串，Integer 對應它出現的次數，最後最大的自然就是出現次數最多的。下面直接給出個 Demo 函式。

// LinGuanHong
public static void search(String limitText){
    String maxWord = "";
    int    maxTime = 0;
    String[] words = limitText.split(" |\.|,");
    int length = words.length;
    HashMap<String,Integer> one = new HashMap<>();
    for(int j=0;j<length;j++){
        Integer number = one.get(words[j]);
        if(number != null){
            number = number + 1;
            /** 找到次數加 1    */
            one.put(words[j],number);
            if(maxTime < number){
                maxTime = number;
                maxWord = words[j];
            }
        }else{
            /** 沒找到，賦值 1  */
            one.put(words[j],1);
        }
    }
    System.out.println("maxTime is :"+maxTime+" ; maxWord is :"+maxWord);
}
複製程式碼

第二題對應的 分治法 + HashMap

按照前面的案例，我們首先一樣是要把這十億個數分成很多份。例如 1000份，每份 10萬。然後使用 HashMap<int,int> 來統計。在每一次的統計中，我們可以找出最大的100個數，為什麼只找10萬中的100個啊？因為我們有1000份，其它份裡面的第二大可能是這份裡最小的。這樣全部加起來都100*1000個數了。OK，在我們找出這100*1000個侯選數後，繼續分治處理，或者直接進行排序，如果直接排序就是10W個數。排序演算法可以選快排等之類的，前100個就是結果。

思路二：

`點陣圖法 Bitmap`

第一題，略。不是純數字的，不建議採用點陣圖法。

第二題：

有了 找出不重複的 的例子做基礎。我們此時直接知道這題的 正整數 最大也是隻能到 2^23-1，對於這道題，我們不需要乘2，所以我們申請的記憶體大小也是512MB。這樣我們就能使用這個點陣圖把所有數都存進去。如果出現了一次，該bit位 = 1，沒有就是0。多次出現的話，我們就不能累加到bit位裡面了，因為它最大就是1。這時候我們會發現，出現多次的話，是無法通過bit位進行累加記錄的。所以，此題也是不適合採用點陣圖法。

其他的

例如問：XXXXX中找出最大的一個，最小的一個，最大的幾個，最小的幾個。這類的就可以使用分治法+最小堆/最大堆秒之。

完矣

經典面試問題: Top K 之 ---- 海量資料找出現次數最多或，不重複的。
2018-03-09
面試
經典的 Top K 問題，你真的懂了麼？
2019-01-28
LeetCode 90 | 經典遞迴問題，求出所有不重複的子集II
2020-08-12
LeetCode遞迴
js找出陣列中出現最多的元素和次數
2019-03-13
JS陣列
經典面試題
2019-04-03
面試題
javascript經典面試題
2018-11-30
JavaScript面試題
java經典面試題
2019-04-16
Java面試題
Js 經典面試題
2020-11-07
JS面試題
前端經典面試題
2024-08-21
前端面試題
30 個 Openstack 經典面試問題和解答
2018-12-09
面試
Python實用技法第11篇：找出序列中出現次數最多的元素
2019-02-16
Python
google經典演算法面試題-雞蛋問題
2019-02-03
Go演算法面試題
經典Java面試題收集
2018-03-14
Java面試題
Google經典面試題解析
2019-02-02
Go面試題
微軟人工智慧和資料科學25個經典面試問題！
2018-09-28
微軟人工智慧資料科學面試
[面試題]事件迴圈經典面試題解析
2022-03-09
面試題事件
找出陣列中第 k 大的數字及其出現次數
2019-03-07
陣列
10.鞏固學習PriorityQueue類------海量資料處理的 Top K演算法(問題) 小頂堆實現
2020-12-19
演算法
70個經典面試問題，有備無患~
2018-11-18
面試
LeetCode 經典面試題 //千分位隔數
2020-11-28
LeetCode面試題
[Linux]經典面試題 - 網路基礎 - TCP三次握手
2021-06-20
Linux面試題TCP
海量資料場景面試題：出現頻率最高的 100 個詞
2024-07-18
面試題
總結！Python培訓之10道經典的面試題
2021-07-22
Python面試題
八數碼經典問題
2024-10-15
JavaScript經典面試題詳解
2018-08-22
JavaScript面試題
經典Java面試題收集（二）
2018-03-14
Java面試題
Runtime經典面試題(附答案)
2019-04-21
面試題
經典 JS 閉包面試題
2024-09-11
JS面試題
leetcode-面試經典150題
2024-08-12
LeetCode面試
20道JavaScript經典面試題
2022-02-15
JavaScript面試題
前端經典面試題（有答案）
2023-03-06
前端面試題
Python經典面試題（附答案）！
2021-04-07
Python面試題
一篇文章帶你搞定經典面試題之扔雞蛋問題
2019-02-16
面試題
面試：頁面載入海量資料
2018-04-26
面試
軟體測試經典面試題（1）
2018-10-25
面試題
軟體測試經典面試題（3）
2018-11-01
面試題
軟體測試崗位的經典面試題
2024-08-23
面試題
Spring面試問題TOP50
2018-12-04
Spring面試

經典面試問題: Top K 之 —- 海量資料找出現次數最多或，不重複的。

僅列舉一些解決方法，事實的解決方案是非常多的。

問這些問題的意義：

一，找出不重複的

思路一：

分治法 + HashMap (HashMap 不要侷限在 Java 語言)

好了，我們現在來計算下上面這個方案的雙間複雜度，時間 & 空間

思路二：

點陣圖法 Bitmap(一個 bit 僅會是 0 或 1)

我們以這個為例子，開始計算點陣圖記憶體。

二，找出出現次數最多的

思路一：

分治法 + HashMap

思路二：

點陣圖法 Bitmap

其他的

完矣

相關文章

`僅列舉一些解決方法，事實的解決方案是非常多的。`

`分治法 + HashMap` (HashMap 不要侷限在 Java 語言)

好了，我們現在來計算下上面這個方案的雙間複雜度，`時間` & `空間`

`點陣圖法 Bitmap`(一個 bit 僅會是 0 或 1)

我們以這個為例子，開始計算`點陣圖`記憶體。

`分治法 + HashMap`

`點陣圖法 Bitmap`