幾道和「黑洞照片」那種海量資料有關的演算法問題

程式設計師吳師兄發表於2019-04-11

昨晚被一則新聞刷屏:北京時間 4 月 10 日今晚 9 點,人類首張黑洞照片正式釋出。

看到這張圖片,小吳心裡是極為震撼的:愛因斯坦太太太太太牛逼了!!!

同時,看新聞的時候小吳還注意到裡面有個細節,給黑洞”拍照“的事件視界望遠鏡從 2017 年就開始為黑洞拍照了,但直到 2019 年才公佈。

心裡不禁納悶:為什麼給黑洞拍照需要這麼長時間?

於是去更加詳細的搜尋資料,果然發現了端倪,其中一個點就是 望遠鏡觀測到的資料量非常龐大

2017 年時 8 個望遠鏡的資料量達到了 10PB(=10240TB),2018 年又增加了格陵蘭島望遠鏡,資料量繼續增加。龐大的資料量為處理讓資料處理的難度不斷加大。

平時面試的時候老是說海量資料,海量資料,這次的資料真的是海量資料了。

這次的資料流之大,導致每個射電望遠鏡產生的資料,都只能用硬碟來儲存。

那麼現在問題來了,假設你作為給黑洞拍照的研發人員,給你一臺記憶體有限的計算機,你如何找出這些資料的中位數或者判斷某個數字是否存在裡面。

1. 海量資料查詢中位數

題目描述

現在有 10 億個 int 型的數字( java 中 int 型佔 4B),以及一臺可用記憶體為 1GB 的機器,如何找出這 10 億個數字的中位數?

所謂中位數就是有序列表中間的數。如果列表長度是偶數,中位數則是中間兩個數的平均值。

題目解析

題目中有 10 億個數字,每個數字在記憶體中佔 4B,那麼這 10 億個數字完全載入到記憶體中需要:10 * 10^8 * 4,大概需要 4GB 的儲存空間。根據題目的限制,顯然不能把所有的數字都裝入記憶體中。

這裡,可以採用基於 二進位制位比較 和 快速排序演算法中的 分割思想 來尋找中位數,實際上這也是 桶排序 的一種應用。

桶排序

假設將這 10 億個數字儲存在一個大檔案中,依次讀一部分檔案到記憶體(不超過記憶體的限制: 1GB ),將每個數字用二進位制表示,比較二進位制的最高位(第 32 位),如果數字的最高位為 0,則將這個數字寫入 file_0 檔案中;如果最高位為 1,則將該數字寫入 file_1 檔案中。

注意:最高位為符號位,也就是說 file_1 中的數都是負數,而 file_0 中的數都是正數。

通過這樣的操作,這 10 億個數字分成了兩個檔案,假設 file_0 檔案中有 6 億個數字,而 file_1 檔案中有 4 億個數字。

這樣劃分後,思考一下:所求的中位數在哪個檔案中?

10 億個數字的中位數是10 億個數排序之後的第 5 億個數,現在 file_0 有 6 億個正數,file_1 有 4 億個負數,file_0 中的數都比 file_1 中的數要大,排序之後的第 5 億個數一定是正數,那麼排序之後的第 5 億個數一定位於file_0中。

也就是說:中位數就在 file_0 檔案中,並且是 file_0 檔案中所有數字排序之後的第 1 億個數字

現在,我們只需要處理 file_0 檔案了(不需要再考慮 file_1 檔案)。

而對於 file_0 檔案,可以同樣的採取上面的措施處理:將 file_0 檔案依次讀一部分到記憶體(不超記憶體限制:1GB ),將每個數字用二進位制表示,比較二進位制的 次高位(第 31 位),如果數字的次高位為 0,寫入 file_0_0 檔案中;如果次高位為 1 ,寫入 file_0_1 檔案中。

現假設 file_0_0 檔案中有 3 億個數字,file_0_1中也有 3 億個數字,則中位數就是:file_0_0 檔案中的數字從小到大排序之後的第 1 億個數字。

拋棄 file_0_1 檔案,繼續對 file_0_0 檔案 根據次次高位(第 30 位) 劃分,假設此次劃分的兩個檔案為:file_0_0_0中有 0.5 億個數字,file_0_0_1 中有 2.5 億個數字,那麼中位數就是 file_0_0_1 檔案中的所有數字排序之後的第 0.5 億個數。

2. 海量資料中判斷數字是否存在

題目描述

現在有 10 億個 int 型的數字( java 中 int 型佔 4B),以及一臺可用記憶體為 1GB 的機器,給出一個整數,問如果快速地判斷這個整數是否在這 10 億數字中?

題目分析

這裡可以使用 布隆過濾器 進行處理。

布隆過濾器(英語:Bloom Filter)是 1970 年由 Burton Bloom 提出的。

它實際上是一個很長的二進位制向量和一系列隨機對映函式。
複製程式碼

可以用來判斷一個元素是否在一個集合中。它的優勢是隻需要佔用很小的記憶體空間以及有著高效的查詢效率。

對於布隆過濾器而言,它的本質是一個位陣列:位陣列就是陣列的每個元素都只佔用 1 bit ,並且每個元素只能是 0 或者 1。

一開始,布隆過濾器的位陣列所有位都初始化為 0。比如,陣列長度為 m ,那麼將長度為 m 個位陣列的所有的位都初始化為 0。

0 0 0 0 0 0 0 0 0 0
0 0 1 m-2 m-1

在陣列中的每一位都是二進位制位。

布隆過濾器除了一個位陣列,還有 K 個雜湊函式。當一個元素加入布隆過濾器中的時候,會進行如下操作:

  • 使用 K 個雜湊函式對元素值進行 K 次計算,得到 K 個雜湊值。
  • 根據得到的雜湊值,在位陣列中把對應下標的值置為 1。

圖 1

舉個例子,假設布隆過濾器有 3 個雜湊函式:f1, f2, f3 和一個位陣列 arr。現在要把 2333 插入布隆過濾器中:

  • 對值進行三次雜湊計算,得到三個值 n1, n2, n3。
  • 把位陣列中三個元素 arr[n1], arr[n2], arr[3] 都置為 1。

當要判斷一個值是否在布隆過濾器中,對元素進行三次雜湊計算,得到值之後判斷位陣列中的每個元素是否都為 1,如果值都為 1,那麼說明這個值在布隆過濾器中,如果存在一個值不為 1,說明該元素不在布隆過濾器中。

布隆

小吳在前不久專門分析講解過此題,更加詳細的講解請點選這裡檢視~

參考資料

海量資料查詢中位數www.cnblogs.com/hapjin/p/57…

個人網站:www.cxyxiaowu.com

公眾號:五分鐘學演算法

相關文章