全球10大終極資料庫 - 上篇

黃利民發表於2010-09-26

10. 美國國會圖書館

不管是不是在數字時代,全球最大的圖書館——美國國會圖書館都可以榮登這一列表。國會圖書館的藏書數量之高——1.4億多冊,範圍之廣——從烹飪書籍到殖民地時期的報紙到美國政府刊物。據估計,如果把國會圖書館的文字以數字形式儲存,其總量將達20TB。

如果你(特指老美)在網際網路上找東西又找不到時,那麼國會圖書館應是你要去的地方。對於研究美國曆史的使用者來說,國會圖書館是個必去之處,使用者訪問國會圖書館網站的“美國記憶”目錄,該目錄下大約有5百萬冊相關資料。

但不幸的是,國會圖書館並無計劃把所有的館藏內容都數字化,並且有些館藏是限制查閱人群,只對最高法院法官、國會議員、館內工作人員和其他政府官員。但是,只要你有國會圖書館的借閱卡,就可以借閱(大部分)資料。(編者注:該圖書館的資料不能外借,讀者只能在館內查閱。)

國會圖書館資料庫概括:

  • 1. 館藏資料總量1.3億份; (包括書籍、照片和地圖等)
  • 2. 2900萬冊書;
  • 3. 每天新增1萬館藏;
  • 4. 書架長度共有530英里;
  • 5. 5百萬份數字文件;
  • 6. 文字資料總量20TB。

9. 美國中央情報局(CIA)

CIA的任務(之一)就是收集和散發各種資訊和資料,所以CIA能上榜就不足為奇了。雖然CIA資料庫的總量外界不得而知,但下面這個說法是十分肯定的。這個機構一定收集了大量的公共資訊和私人資訊。(編者注:其收集資訊的手段十分多樣化。)

CIA資料庫對公眾開放的部分有:“資訊自由法”電子閱覽室、“世界概況”和其他情報相關出版物。在“資訊自由法”電子閱覽室中,公眾可以看到成千上萬的美國政府官方文件(也有已解密的文件)。電子閱覽室每月新增100份文件,文件主題內容範圍很廣,從巴基斯坦核發展到“韓戰”(西方皆稱“韓戰”,大陸稱“抗美援朝”)中的啤酒種類。“世界概況”收藏了各個國家和地區的資訊,包括地圖、人口數量和軍事能力等。

編者注:美國中央情報局圖書館電子閱覽室網站 http://www.foia.cia.gov/ 根據《美國資訊自由法》,美國政府公佈了大批中央情報局國家情報評估等情報檔案。在該網站“檔案搜尋”框中輸入關鍵詞便可搜尋所需檔案,也可按地理、功能和形式分類查詢。

CIA資料庫概括:

  • 1. 電子閱覽室每個月新增100份文件;
  • 2. 覆蓋全球250多個國家和地區的統計資料;
  • 3. 數目不詳的機密資料

8. Amazon 亞馬遜

Amazon,全球最大的零售網站,“收藏”了5900萬活躍使用者的資訊,包括個人資訊(電話號碼等)、收據/發票、清單和還有其他能從使用者那提取的資料。Amazon也有25萬多的線上書籍(可以全文閱讀的),並允許使用者在其各個頁面進行評論和互動。因此,Amazon躋身為全球最大的線上社群之一。


(不知你有注意Amazon的Logo上的箭頭麼?
有2層意思:1. 從A到Z是指其物品繁多;2. 笑臉。)

上述這些資料和Amazon每年的數百萬鉅額銷售量,再加上Amazon合夥人的鉅額銷售量,造就了一個超大資料庫。Amazon最大的2個資料庫的資料量加起來有42TB,這還只是開始。如果Amazon公開其所有的資料庫數量和每個資料庫的資料量,這就不僅是42TB了。

儘管如此,我們暫且就算它42TB吧。42TB資料,如果換算成論壇帖子的話,應該是37萬億個帖子。

編者注:我猜想,這裡所說的帖子,應該是主題帖和回帖的統稱,不是特指主題帖。另外,Amazon賣出的第一本書是道格拉斯·霍夫斯塔特的《Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought》。

Amazon資料庫概括:

  • 1. 5900萬活躍使用者;
  • 2. 資料量超過42TB。

7. YouTube

在經過這些年的積累發展,YouTube已經成為全球最大的視訊庫(視訊網站)。如今,YouTube上每日視訊播放次數高達1億次,60%的視訊是線上觀看的。

2006年8月,《華爾街日報》稱YouTube的視訊總量已有45TB。相對網際網路上資料量來說,這個數字聽起來不是很高,但自從這個數字公佈以來,YouTube正經歷了一段大幅增長時期,(每天有65000段視訊上傳至YouTube,)所以在過去五個月中,YouTube的資料庫大小很可能已經翻倍了。

因為YouTube上的每段視訊的大小不一,所以要估計YouTube的資料庫大小並非易事。不過,也可以大膽來預測一下:

  • 每天上傳6500段視訊,故每個月共有 65000 * 30 = 1,950,000段視訊;
  • 假設每段視訊大小為1MB,每月將有 1.95TB;
  • 假設每段視訊大小為10MB,每月將有19.5TB。

所以,YouTube下個月將增加近20TB資料。
(編者注:YouTube上的第一段視訊是Youtube的聯合創始人Jawed Karim上傳的,視訊名稱《Me at the zoo》。)

YouTube資料庫概括:

  • 1. 每日的視訊播放量為1億次;
  • 2. 每日新增65000段視訊;
  • 3. 60%的視訊是線上觀看的;
  • 4. 視訊總量大小至少是45TB。

6. ChoicePoint

設想一下:在一本10億頁的電話本上找一個電話號碼。這是一項什麼的工作。當你有求於ChoicePoint的時候,ChoicePoint的員工就得幹這活。如果把ChoicePoint的資料庫資料全部列印出來,在不這些紙張連起來,其長度足以在地月之間往返77回。

ChoicePoint是一家資訊服務機構,你可以通過它查詢美國的人口數量、地址和電話號碼、駕駛記錄和犯罪記錄等。在大多數情況下,Choicepoint資料庫中的資料是隻賣給出價最高的買主,包括美國政府。

ChoicePoint到底知道多少呢?2002年,藉助ChoicePoint資料中的DNA和個人記錄數量,政府成功破獲了費城和柯林斯堡的一起系列強/奸案。2001年,世貿中心有很多遇難者已無法辨別身份,在提取遇難者的DNA後,通過比對ChoicePoint資料庫中的遇難者家屬的資料,才得以確認遇難者身份。

ChoicePoint資料庫概括:

  • 1. 個人資料總量為250TB;
  • 2. 資訊覆蓋2.5億人。

(編者注:在Wikipedia的ChoicePoint詞條中,也可查到ChoicePoint的2005年資料記錄。)

全球10大終極資料庫 – 下篇

 

本文來源:伯樂線上

參考來源:Wikipedia 和 Topstrange
轉載請註明原文來源和連結,否則視為侵權!

相關文章