眾所周知,演算法、算力與資料是人工智慧(AI)發展的三駕馬車,吳恩達等學者也常說:以資料為中心的 AI,或資料驅動的 AI

由此可見,近年來激增的資料量是 AI 騰飛的源動力之一,資料在 AI 中扮演重要角色。那麼,人們口中常說的大資料,規模究竟有多大呢

出於好奇心,一位義大利物理研究者 Luca Clissa 調查了 2021 年幾個知名大資料來源(谷歌搜尋、FacebookNetflix、亞馬遜等等)的規模大小,並將它們與大型強子對撞機(LHC)的電子裝置所檢測到的資料做了對比。

地址:https://arxiv.org/pdf/2202.07659.pdf

毫無疑問,LHC 的資料量是驚人的,高達 40k EB。但商業公司的資料量也不容小覷,比如,亞馬遜 S3 儲存的資料量也達到了大約 500 EB,大致相當於谷歌搜尋(62 PB)的 7530 倍。

此外,流資料在大資料市場中也佔有一席之地。Netflix 和電子通訊等服務產生的流量比單純的資料生產者要多一到兩個數量級。

01. LHC 的資料量

根據 Luca Clissa 的調查,2021 年各大知名資料來源的體量大約如下:

圖注:2021 年的大資料規模

右上角(灰色部分)是歐洲核子研究組織(CERN)大型強子對撞機(LHC)實驗的電子裝置所檢測到的資料,規模最大。

在上一次執行(2018 年)中,LHC 在四個主要實驗(ATLASALICECMS LHCb)中的每一個實驗裡,每秒產生大約 24 億次粒子碰撞,每次碰撞可以提供約 100 MB 資料,因此預計年產原始資料量約為 40k EB=10 億千兆位元組)。

但根據目前的技術和預算,儲存 40k EB 資料是不可能的。而且,實際上只有一小部分資料有意義,因此沒有必要記錄所有資料。記錄的資料量也降低到了每天大約 1 PB2018 年的最後一次真實資料只採集了 160 PB,模擬資料 240 PB

此外,收集的資料通過 WLCG (全球 LHC 計算網路)不斷傳輸,2018 年產生了 1.9k PB 的年流量。

不過,歐洲核子研究組織(CERN)正在努力加強 LHC 的能力,進行 HL-LHC 升級。這個過程預計生成的資料量將增加 5 倍以上,到 2026 年,每年估計產生 800 PB 的新資料。

02. 大廠資料量對比

大公司的資料量很難追蹤,且資料通常不會公開。對此,Luca Clissa 採用了費米估演算法(Fermi estimation),將資料生產過程分解為其原子組成部分,並做出合理的猜測。

比如,針對特定資料來源,檢索在給定時間視窗內產生的內容量。然後通過對這些內容的單位大小的合理猜測來推斷資料總量,例如平均郵件或圖片大小,1 小時視訊的平均資料流量等等。

他對谷歌搜尋、YouTubeFacebook 等等資料來源進行了估算,結論如下:

谷歌搜尋:最近的一項分析估計,Google 搜尋引擎包含 30 500 億個網頁。根據 Web Almanac 所提供的資訊,假設谷歌的年度平均頁面大小約為 2.15 MB,截至 2021 年,Google 搜尋引擎的資料總規模應約為 62 PB

YouTube:根據 Backlinko 的資料,2021 年使用者每天在 YouTube 上上傳的視訊時長為 72 萬小時。假設平均大小為 1 GB(標準清晰度),2021 YouTube 的資料大小約為 263 PB

Facebook InstagramDomo Data Never Sleeps 9.0 報告估計,2021 Facebook Instagram 每分鐘上傳的圖片數量分別為 240k 65k。假設平均大小為 2 MB,則總共大約為 252 PB 68 PB

DropBox:雖然 Dropbox 本身不產生資料,但它提供了雲端儲存解決方案來託管使用者的內容。2020 年,公司宣佈新增使用者 1 億,其中付費訂閱使用者達到 117 萬。通過推測免費和付費訂閱的佔用率分別為 75%2 GB)和 25%2 TB),Dropbox 使用者在 2020 年所需的儲存量約為 733 PB

電子郵件:根據 Statista 的資料,從 2020 10 月到 2021 9 月,使用者大約傳送了近 131,000 億次電子通訊(包含 71,000 億封電子郵件和 60,000 億封垃圾郵件)。假設標準郵件和垃圾郵件的平均大小分別為 75 KB 5 KB ,我們可以估計電子郵件的總流量約為 5.7k PB

NetflixDomo 估計,2021 Netflix 使用者每天消耗 1.4 億小時的流媒體播放,假設每小時 1 GB(標準定義),總計大約 51.1k PB

亞馬遜:亞馬遜網路服務 (AWS) 的首席佈道師 Jeff Barr 稱,截至 2021 年,亞馬遜 S3 Simple Storage Service)中儲存了超過 100 萬億個物件。假設平均每桶的物件大小為 5 MB ,那麼儲存在 S3 中的檔案的總大小則約等於 500 EB

總的來說,科學資料可以在數量上與商業資料來源相媲美。

參考連結:

1.https://towardsdatascience.com/how-big-are-big-data-in-2021-6dc09aff5ced

2.https://firstsiteguide.com/google-search-stats/

3.https://backlinko.com/

4.https://mms.businesswire.com/media/20210929005835/en/911394/5/data-never-sleeps-9.0-1200px.jpg?download=1

5.https://backlinko.com/dropbox-users

6.https://www.statista.com/

7.https://aws.amazon.com/cn/blogs/aws/amazon-s3s-15th-birthday-it-is-still-day-1-after-5475-days-100-trillion-objects/

8.https://atlas.cern/