全球10大終極資料庫 - 下篇

黃利民發表於2010-09-27

導讀:看了上篇的回覆評論,有朋友說自家電腦上的影片都是TB級的。一般來說,明智的管理員是不大可能把視訊和圖片之類的檔案儲存在資料庫中的。

5. Sprint 斯普林特

 Sprint是全球最大的通訊公司之一,向5300萬客戶提供服務。在和Nextel合併之前,提供本地和長途通訊服務。(Sprint Nextel公司現已是全美第3大通訊公司,僅次於Verizon和AT&T。)

像Sprint這樣的大型通訊公司,均有龐大的資料庫,以追蹤客戶呼叫請求。Sprint的資料庫每天要處理多達3.65億次呼叫記錄。其資料庫已擴充套件到2.85萬億行。在頂峰期間,每秒有7萬次呼叫詳細記錄新增到資料庫中。

Sprint資料庫概括:

  • 1. 資料庫有2.85萬億行;
  • 2. 每日平均處理3.65億個呼叫詳細記錄;
  • 3. 頂峰期間,每秒插入7萬次呼叫詳細記錄。

4. Google

儘管目前外界沒有太多關於Google的資料庫真實大小的資訊(Google一直能嚴守資訊,這讓諾克斯堡軍事基地情何以堪。),但我們已知道Google所收集資訊的數量和種類。

編者注:文中提到的諾克斯堡軍事基地,是美國國庫黃金儲備地之一(還有一個是西點,至於紐約聯邦儲備銀行的地下金庫,主要是存放外國的黃金。 )。該基地許多地方可以隨便開車進入,惟獨金庫用鐵絲網攔住,外人不得入內。故原文作者這樣說。

Google平均每天處理20億次查詢(Google的處理海量請求的能力是基於其龐大且強大的資料中心),這將近佔整個網際網路每日查詢總量的50%。Google把使用者的每一次搜尋儲存在資料庫中。所以,Google平均一年要儲存33萬億條查詢記錄。根據Google資料的結構型別,一年的查詢總量將摺合成數百TB。

除了查詢記錄,Google還收集使用者的個人資訊。(怎麼收集?)Google把使用者的查詢請求和使用者電腦上Cookie保留的資訊整合到一起,建立虛擬的個人資訊。

尤為重要的是,除了搜尋,Google帝國的疆土還在不斷擴大,現有疆土已有數字媒體(Google視訊和YouTube)、廣告(Google Ads)和郵箱等。歸根結底,Google的疆土越大,其資料庫處理的資訊量就越大。就網際網路範圍內的資料庫而言,Google是No 1。

Google資料庫概括:

  • 1. 平均每天20億查詢請求;
  • 2. 查詢數量佔所有網際網路查詢量的50%;
  • 3. 不計其數的使用者虛擬資料。

3. AT&T 美國電話電報公司

和Sprint一樣,美國的老牌通訊公司AT&T的資料庫也能進入排名。從結構上來說,AT&T的最大資料庫是百裡挑一的,因為它有2個重要“頭銜”,總量最大的獨立資料庫(312TB)和行數第二大的獨立資料庫(1.9萬億行,這個資料庫是處理呼叫記錄的)。

1.9萬億條呼叫記錄,包括了主叫和被叫號碼、呼叫時間和通話時長以及其他各種賬單目錄資訊。AT&T的工作做得非常細緻,他們業儲存了10年前的呼叫資訊。要知道,10年前可沒有儲存數百TB級資料的技術。(或者說技術還不成熟。)

AT&T資料庫概括:

  • 1. 資訊量為323TB;
  • 2. 1.9萬億的通話記錄。

2. 美國國家能源研究科學計算中心(簡稱NERSC)

第二大的資料庫應屬加州奧克蘭的NERSC。NERSC由“勞倫斯伯克利能源實驗室”和“美國能源部”共同運作。它資料庫儲存的資訊包括了原子能研究、高能物理實驗和早期宇宙模擬等資料。如果想看宇宙過去的模樣,啟動NERSC的超級計算機就可以觀看“大爆炸”時期的宇宙形態。

 編者注:NERSC有超級計算機群,其中最大的名為“富蘭克林”。2009年11月,全球超超級計算機Top500排行榜中,“富蘭克林”位列15。

NERSC資料庫由2000多名電腦科學家操作和維護,其資料量高達2.8PB。(注:1 PB = 1024 TB;1 TB = 1024 GB;)

NERSC資料庫概括:

  • 1. 資訊量高達2.8PB;
  • 2. 由2000多名電腦科學家共同運作;

1. 世界氣候資料中心(WDCC)

如果你有一臺價值3500萬歐元的超級計算機,你會把它用來做什麼?炒股?搭建自己的“因特網”?WDCC就有一臺這樣的機器,又逢全球變暖,正好用它來做氣候研究。WDCC由馬克思·普朗克氣象研究院和德國氣候計算機中心共同運作,其資料庫是全球最大的。

WDCC有220TB的網路資料,包括氣候研究、預測氣候變化和110TB(24500張DVD)的氣候模擬資料。尤為重要的是,它還有儲存在磁帶上的6PB的其他資訊。你會問,這6PB的資料有多大呢?這個資料是全美所有學術研究圖書館內容總和的3倍。

WDCC資料庫概括:

  • 1. 220TB的網路資料:
  • 2. 6PB的其他資料。

編者後話

對於這份原文作者整理的這份列表,相信有朋友會有疑惑,這能稱上是“全球10大終極資料庫”麼?我也有此疑問,但我對Google、AT&T、NERSC和WDCC可以進入排名沒有疑問。我想,既然美國的第三通訊公司Sprint能進入,那國內的同行企業的資料庫為什麼沒能上榜呢?按道理來說,有著龐大人口/使用者基數的,應該能入圍的。或許有這種可能:雖然美國通訊企業的使用者數量沒法和國內的同行比,但他們儲存的通話記錄比國內更長,故資料庫更龐大。

其實本文恰當的標題應該是“全美10大終極資料庫”。並且原文作者還把Facebook漏掉了。Facebook這麼龐大的活躍使用者群(使用者總量已超過5億),看下面3個資料:(資料來源參考

  • 1. 每月處理超過250億條的資訊內容(包括使用者狀態更新,評論等);
  • 2. Facebook圖片總量已有200億張(其實共有800百張,因為每張圖片按4種解析度儲存);
  • 3. 每個月有超過30億的圖片上傳到Facebook。

主要看第一條資料(圖片不會儲存在資料庫中的),每月有250億條,Facebook已運作這麼多年了,資料庫中應該存有5000億條資訊(保守數字),假設平均每條資訊10B,則共約為50TB。

總而言之,如果要算資料庫總量大小,Facebook能進入這個列表。如果你還有其他觀點,不妨在評論中和大家一起分享。

 

本文來源:伯樂線上

參考來源:Wikipedia 和 Topstrange
   轉載請註明原文來源和連結,否則視為侵權!

相關文章