資料分析面試題：如何從10億查詢詞找出出現頻率最高的10個？

翠花發表於2013-09-09

原文網址 : http://www.199it.com/archives/149583.html

1．問題描述

在大規模資料處理中，常遇到的一類問題是，在海量資料中找出出現頻率最高的前K個數，或者從海量資料中找出最大的前K個數，這類問題通常稱為“top K”問題，如：在搜尋引擎中，統計搜尋最熱門的10個查詢詞；在歌曲庫中統計下載率最高的前10首歌等等。

2．當前解決方案

針對top k類問題，通常比較好的方案是【分治+trie樹/hash+小頂堆】，即先將資料集按照hash方法分解成多個小資料集，然後使用trie樹或者hash統計每個小資料集中的query詞頻，之後用小頂堆求出每個資料集中出頻率最高的前K個數，最後在所有top K中求出最終的top K。

實際上，最優的解決方案應該是最符合實際設計需求的方案，在實際應用中，可能有足夠大的記憶體，那麼直接將資料扔到記憶體中一次性處理即可，也可能機器有多個核，這樣可以採用多執行緒處理整個資料集。

本文針對不同的應用場景，介紹了適合相應應用場景的解決方案。

3．解決方案

3.1 單機+單核+足夠大記憶體

設每個查詢詞平均佔8Byte，則10億個查詢詞所需的記憶體大約是10^9*8=8G記憶體。如果你有這麼大的記憶體，直接在記憶體中對查詢詞進行排序，順序遍歷找出10個出現頻率最大的10個即可。這種方法簡單快速，更加實用。當然，也可以先用HashMap求出每個詞出現的頻率，然後求出出現頻率最大的10個詞。

3.2 單機+多核+足夠大記憶體

這時可以直接在記憶體中實用hash方法將資料劃分成n個partition，每個partition交給一個執行緒處理，執行緒的處理邏輯是同3.1節類似，最後一個執行緒將結果歸併。

該方法存在一個瓶頸會明顯影響效率，即資料傾斜，每個執行緒的處理速度可能不同，快的執行緒需要等待慢的執行緒，最終的處理速度取決於慢的執行緒。解決方法是，將資料劃分成c*n個partition（c>1），每個執行緒處理完當前partition後主動取下一個partition繼續處理，直到所有資料處理完畢，最後由一個執行緒進行歸併。

3.3 單機+單核+受限記憶體

這種情況下，需要將原資料檔案切割成一個一個小檔案，如，採用hash(x)%M，將原檔案中的資料切割成M小檔案，如果小檔案仍大於記憶體大小，繼續採用hash的方法對資料檔案進行切割，直到每個小檔案小於記憶體大小，這樣，每個檔案可放到記憶體中處理。採用3.1節的方法依次處理每個小檔案。

3.4 多機+受限記憶體

這種情況下，為了合理利用多臺機器的資源，可將資料分發到多臺機器上，每臺機器採用3.3節中的策略解決本地的資料。可採用hash+socket方法進行資料分發。

從實際應用的角度考慮，3.1~3.4節的方案並不可行，因為在大規模資料處理環境下，作業效率並不是首要考慮的問題，演算法的擴充套件性和容錯性才是首要考慮的。演算法應該具有良好的擴充套件性，以便資料量進一步加大（隨著業務的發展，資料量加大是必然的）時，在不修改演算法框架的前提下，可達到近似的線性比；演算法應該具有容錯性，即當前某個檔案處理失敗後，能自動將其交給另外一個執行緒繼續處理，而不是從頭開始處理。

Top k問題很適合採用MapReduce框架解決，使用者只需編寫一個map函式和兩個reduce 函式，然後提交到Hadoop（採用mapchain和reducechain）上即可解決該問題。對於map函式，採用hash演算法，將hash值相同的資料交給同一個reduce task；對於第一個reduce函式，採用HashMap統計出每個詞出現的頻率，對於第二個reduce 函式，統計所有reduce task輸出資料中的top k即可。

4．總結

Top K問題是一個非常常見的問題，公司一般不會自己寫個程式進行計算，而是提交到自己核心的資料處理平臺上計算，該平臺的計算效率可能不如直接寫程式高，但它具有良好的擴充套件性和容錯性，而這才是企業最看重的。

自：36大資料

海量資料場景面試題：出現頻率最高的 100 個詞
2024-07-18
面試題
【面經】面試官：如何以最高的效率從MySQL中隨機查詢一條記錄？
2020-11-04
面試MySql隨機
面試常問的20個資料庫高頻面試題詳解！
2019-04-29
資料庫面試題
014 Linux 線上高頻使用以及面試高頻問題——如何查詢大檔案並安全的清除？
2022-02-13
Linux面試
(四) BAT面試的20道高頻資料庫面試題
2020-11-03
BAT資料庫面試題
統計一個字串出現頻率最高的字母/數字
2018-12-11
字串
大廠面試經：高頻率JVM面試問題整理！
2019-11-12
面試JVM
資料庫面試簡答、30道高頻面試題
2021-01-06
資料庫面試題
100臺機器上海量IP如何查詢出現頻率 Top 100？
2021-10-09
Python分析36套四級真題獲取詞頻最高5000個詞彙，還怕四級不過麼
2018-12-15
Python
計算出一段英文中出現頻率最高的單詞（第一次面試時沒做出來，現在都記憶深刻）...
2020-04-04
面試
從阿里、騰訊的面試真題中總結了這11個Redis高頻面試題
2020-04-02
阿里Redis面試題
JAVA面試題筆試題-查詢一個字串不重複最長的串（個人方法）
2020-11-23
Java面試題筆試字串
加密後的資料如何進行模糊查詢？今天面了 10 個，沒一個能答上來的！
2024-07-23
加密
面試官：一千萬的資料，你是怎麼查詢的？
2023-03-31
面試
二分查詢（JS解法）——高頻面試演算法題（百度真題）
2020-11-11
JS面試演算法
資料分析的熱門 Excel 面試問題
2024-03-20
Excel面試
高頻面試題
2024-06-28
面試題
SSH：hiberate實現資料的查詢（單查詢和全查詢）
2019-01-01
win10如何查詢自己寬頻速度_win10檢視寬頻速度的方法
2019-12-10
Win10
efcore 跨表查詢，實現一個介面內查詢兩個不同資料庫裡各自的表資料
2020-07-06
資料庫
大資料面試SQL每日一題系列：最高峰同時線上主播人數。位元組，快手等大廠高頻面試題
2024-05-06
大資料SQL每日一題面試題
SQL面試題三（單表、多表查詢）
2018-05-04
SQL面試題
有限資源下如何實現最高效的資料處理？四個“智慧城市”專案尋找“最優解”
2023-04-12
高頻面試：如何解決MySQL主從複製延時問題
2023-03-14
面試MySql
Java面試題從原始碼角度分析HashSet實現原理？
2019-07-25
Java面試題原始碼
資料庫redolog切換頻率統計分析
2021-02-10
資料庫
MySQL高頻面試題
2023-05-11
MySql面試題
面試常問的幾個排序和查詢演算法，PHP 實現
2019-03-08
面試排序演算法PHP
軟體測試員必備：面試時常問的15個MySQL資料庫查詢語句
2019-03-27
面試MySql資料庫
HashMap：從原始碼分析到面試題
2020-08-04
HashMap原始碼面試題
機率面試題
2024-05-19
面試題
簡單說幾個MySQL高頻面試題
2021-01-25
MySql面試題
詢問面試官的面試問題
2022-04-19
面試
Oracle 查詢多個資料
2024-08-19
Oracle
MYSQL練習題：給定數字的頻率查詢中位數（Leetcode困難）
2020-12-03
MySqlLeetCode
資料分析面試｜SQL真題持續更新
2020-12-29
面試SQL
10 個常問的 JS 面試題
2019-11-07
JS面試題
JavaScript：面試頻繁出現的幾個易錯點
2018-03-26
JavaScript面試

資料分析面試題：如何從10億查詢詞找出出現頻率最高的10個？

相關文章