幾道和「黑洞照片」那種海量資料有關的演算法問題

程式設計師吳師兄發表於2019-04-11

原文網址 : https://juejin.im/post/5caedc7ef265da038557e553

演算法

昨晚被一則新聞刷屏：北京時間 4 月 10 日今晚 9 點，人類首張黑洞照片正式釋出。

看到這張圖片，小吳心裡是極為震撼的：愛因斯坦太太太太太牛逼了！！！

同時，看新聞的時候小吳還注意到裡面有個細節，給黑洞”拍照“的事件視界望遠鏡從 2017 年就開始為黑洞拍照了，但直到 2019 年才公佈。

心裡不禁納悶：為什麼給黑洞拍照需要這麼長時間？

於是去更加詳細的搜尋資料，果然發現了端倪，其中一個點就是 望遠鏡觀測到的資料量非常龐大 ！

2017 年時 8 個望遠鏡的資料量達到了 10PB（=10240TB），2018 年又增加了格陵蘭島望遠鏡，資料量繼續增加。龐大的資料量為處理讓資料處理的難度不斷加大。

平時面試的時候老是說海量資料，海量資料，這次的資料真的是海量資料了。

這次的資料流之大，導致每個射電望遠鏡產生的資料，都只能用硬碟來儲存。

那麼現在問題來了，假設你作為給黑洞拍照的研發人員，給你一臺記憶體有限的計算機，你如何找出這些資料的中位數或者判斷某個數字是否存在裡面。

1. 海量資料查詢中位數

題目描述

現在有 10 億個 int 型的數字（ java 中 int 型佔 4B），以及一臺可用記憶體為 1GB 的機器，如何找出這 10 億個數字的中位數？

所謂中位數就是有序列表中間的數。如果列表長度是偶數，中位數則是中間兩個數的平均值。

題目解析

題目中有 10 億個數字，每個數字在記憶體中佔 4B，那麼這 10 億個數字完全載入到記憶體中需要：10 * 10^8 * 4，大概需要 4GB 的儲存空間。根據題目的限制，顯然不能把所有的數字都裝入記憶體中。

這裡，可以採用基於 二進位制位比較 和快速排序演算法中的 分割思想 來尋找中位數，實際上這也是 桶排序 的一種應用。

假設將這 10 億個數字儲存在一個大檔案中，依次讀一部分檔案到記憶體(不超過記憶體的限制： 1GB )，將每個數字用二進位制表示，比較二進位制的最高位(第 32 位)，如果數字的最高位為 0，則將這個數字寫入 file_0 檔案中；如果最高位為 1，則將該數字寫入 file_1 檔案中。

注意：最高位為符號位，也就是說 file_1 中的數都是負數，而 file_0 中的數都是正數。

通過這樣的操作，這 10 億個數字分成了兩個檔案，假設 file_0 檔案中有 6 億個數字，而 file_1 檔案中有 4 億個數字。

這樣劃分後，思考一下：所求的中位數在哪個檔案中？

10 億個數字的中位數是10 億個數排序之後的第 5 億個數，現在 file_0 有 6 億個正數，file_1 有 4 億個負數，file_0 中的數都比 file_1 中的數要大，排序之後的第 5 億個數一定是正數，那麼排序之後的第 5 億個數一定位於file_0中。

也就是說：中位數就在 file_0 檔案中，並且是 file_0 檔案中所有數字排序之後的第 1 億個數字。

現在，我們只需要處理 file_0 檔案了（不需要再考慮 file_1 檔案）。

而對於 file_0 檔案，可以同樣的採取上面的措施處理：將 file_0 檔案依次讀一部分到記憶體(不超記憶體限制：1GB )，將每個數字用二進位制表示，比較二進位制的 次高位（第 31 位），如果數字的次高位為 0，寫入 file_0_0 檔案中；如果次高位為 1 ，寫入 file_0_1 檔案中。

現假設 file_0_0 檔案中有 3 億個數字，file_0_1中也有 3 億個數字，則中位數就是：file_0_0 檔案中的數字從小到大排序之後的第 1 億個數字。

拋棄 file_0_1 檔案，繼續對 file_0_0 檔案根據次次高位(第 30 位) 劃分，假設此次劃分的兩個檔案為：file_0_0_0中有 0.5 億個數字，file_0_0_1 中有 2.5 億個數字，那麼中位數就是 file_0_0_1 檔案中的所有數字排序之後的第 0.5 億個數。

2. 海量資料中判斷數字是否存在

題目描述

現在有 10 億個 int 型的數字（ java 中 int 型佔 4B），以及一臺可用記憶體為 1GB 的機器，給出一個整數，問如果快速地判斷這個整數是否在這 10 億數字中？

題目分析

這裡可以使用 布隆過濾器 進行處理。

布隆過濾器（英語：Bloom Filter）是 1970 年由 Burton Bloom 提出的。

它實際上是一個很長的二進位制向量和一系列隨機對映函式。
複製程式碼

它可以用來判斷一個元素是否在一個集合中。它的優勢是隻需要佔用很小的記憶體空間以及有著高效的查詢效率。

對於布隆過濾器而言，它的本質是一個位陣列：位陣列就是陣列的每個元素都只佔用 1 bit ，並且每個元素只能是 0 或者 1。

一開始，布隆過濾器的位陣列所有位都初始化為 0。比如，陣列長度為 m ，那麼將長度為 m 個位陣列的所有的位都初始化為 0。

0	0	0	0	0	0	0	0	0	0
0	0	1	。	。	。	。	。	m-2	m-1

在陣列中的每一位都是二進位制位。

布隆過濾器除了一個位陣列，還有 K 個雜湊函式。當一個元素加入布隆過濾器中的時候，會進行如下操作：

使用 K 個雜湊函式對元素值進行 K 次計算，得到 K 個雜湊值。
根據得到的雜湊值，在位陣列中把對應下標的值置為 1。

舉個例子，假設布隆過濾器有 3 個雜湊函式：f1, f2, f3 和一個位陣列 arr。現在要把 2333 插入布隆過濾器中：

對值進行三次雜湊計算，得到三個值 n1, n2, n3。
把位陣列中三個元素 arr[n1], arr[n2], arr[3] 都置為 1。

當要判斷一個值是否在布隆過濾器中，對元素進行三次雜湊計算，得到值之後判斷位陣列中的每個元素是否都為 1，如果值都為 1，那麼說明這個值在布隆過濾器中，如果存在一個值不為 1，說明該元素不在布隆過濾器中。

小吳在前不久專門分析講解過此題，更加詳細的講解請點選這裡檢視~

參考資料

海量資料查詢中位數：www.cnblogs.com/hapjin/p/57…

個人網站：www.cxyxiaowu.com

公眾號：五分鐘學演算法

幾道和「二叉樹」有關的演算法面試題
2019-03-18
二叉樹演算法面試題
幾道和「堆疊、佇列」有關的面試演算法題
2019-03-05
佇列面試演算法
有點難度，幾道和「滑動視窗」有關的演算法面試題
2019-04-22
演算法面試題
幾道和雜湊（雜湊）表有關的面試題
2019-03-15
面試題
10 道資料結構演算法題，不看答案你會幾道題
2020-12-19
資料結構演算法
有關 socialiteproviders 存在的幾個問題
2021-09-25
IDE
你知道那幾種資料遷移工具？
2023-10-16
幾道 BAT 演算法面試中經常問的「字串」問題
2019-04-04
BAT演算法面試字串
N道大資料海量資訊處理演算法面試集錦
2018-09-04
大資料演算法面試
面試官常問的Nginx的那幾個問題？
2019-09-03
面試Nginx
MySQL 海量資料的 5 種分頁方法和優化技巧
2019-03-08
MySql優化
JSON資料交換格式有幾種？
2023-12-04
JSON
Redis有哪幾種資料淘汰策略？
2021-04-08
Redis
【演算法】Fibonacci（斐波那契數列）相關問題
2018-10-24
演算法
幾種主要的oracle資料庫問題發生後資料恢復的成功概率分析
2021-11-29
Oracle資料庫資料恢復
幾道特別難搞的資料庫面試題
2020-11-08
資料庫面試題
劍指offer中幾道演算法題的思考
2018-09-02
演算法
資料庫訪問幾種方式對比
2024-09-07
資料庫
java解決數字黑洞問題
2020-11-14
Java
有關模型關聯的問題
2021-07-05
模型
Python資料儲存方式有幾種？如何使用？
2022-07-07
Python
關聯式資料庫SQL面試排名前100道問答題
2021-12-30
資料庫SQL面試
面試現場簡單幾道java演算法題, 你能寫出幾道?
2020-04-07
面試Java演算法
JavaScript變數，資料和記憶體的相關問題
2020-09-25
JavaScript變數記憶體
海量資料處理問題知識點複習手冊
2019-03-04
關於六西格瑪，這裡有你最關心的幾個問題！
2022-11-02
關於CSS和JS中用到的各種Height和Width的問題
2018-11-30
CSSJS
22道js輸出順序問題,你能做出幾道
2023-01-13
JS
史上第一張黑洞照片是用Python合成的？
2019-04-17
Python
前端基礎問題：CSS居中的幾種方式
2021-05-08
前端CSS
Express 提交資料的幾種方式
2019-02-27
Express
大資料分析的幾種方法
2022-04-07
大資料
ECharts海量資料渲染解決卡頓的4種方式
2024-04-24
Echarts
孔乙己的疑問：單例模式有幾種寫法
2019-01-01
單例模式
關於ImageView的幾個常見問題
2020-09-28
View
關於解決問題的幾個段位
2018-03-28
快手關於海量模型資料處理的實踐
2024-02-07
模型
資料結構和演算法——遞迴-八皇后問題（回溯演算法）
2021-08-29
資料結構演算法遞迴

幾道和「黑洞照片」那種海量資料有關的演算法問題

1. 海量資料查詢中位數

題目描述

題目解析

2. 海量資料中判斷數字是否存在

題目描述

題目分析

參考資料

相關文章