漫畫：什麼是大資料？

玻璃貓發表於2016-11-07

大資料是具有海量、高增長率和多樣化的資訊資產，它需要全新的處理模式來增強決策力、洞察發現力和流程優化能力。

Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

大資料通常都擁有海量的資料儲存。僅根據2013年的統計，網際網路搜尋巨頭百度已擁有資料量接近EB級別、阿里、騰訊宣告自己儲存的資料總量都達到了百PB以上。此外，電信、醫療、金融、公共安全、交通、氣象等各個方面儲存的資料量也都達到數十或者上百PB級別。

非IT圈的朋友可能會問，EB和PB是什麼鬼？這裡列出一個計算公式：

1TB = 1024 GB

1PB = 1024 TB

1EB = 1024 PB

目前標配的個人電腦硬碟容量差不多1TB大小。那麼1EB就相當於1024 X 1024 = 1048576 塊硬碟的儲量，足夠讓一輛C-130大力神運輸機往返運輸數十次！

面對這樣規模的資料儲存量，依靠單臺資料庫伺服器顯然是不夠的，需要以分散式檔案系統（例如 HDFS）作為基石。

在傳統的關係型資料庫中，所儲存的資料都是結構化的，例如：

但是在現實生活中，資訊往往並沒有嚴格的結構限制。比如一個電商網站需要記錄如下使用者行為：

使用者張三，於某某時間在商品搜尋欄搜尋了“蘋果手機”一詞，然後進入 XXX 商鋪進行瀏覽，經過與店家溝通，討價還價，最終以6000元的價格購買了 iPhone 7 “鋼琴黑”款式手機一部。

諸如此類的使用者行為資料屬於非結構化資料，很難用關係型資料庫儲存。因此諸多No-SQL資料庫（例如 HBase）成為了儲存大資料的更好選擇。

如果沒有更加快速有效的海量資料解決方案，那麼如此大量多樣的資料不但沒有帶來更多價值，反而成為了系統的負擔。關於這一點，谷歌公司率先提出的MapReduce模型為我們帶來了新的道路。

MapReduce可以簡單的理解成一種分治方法：把龐大的任務分成若干小任務，交給多個節點進行並行處理，然後再把所有節點的處理結果合併起來，從而大大提升了資料處理效率。（關於MapReduce的詳細流程，將會在以後的文章中進行講解。）

人工智慧：

以大資料作為機器學習的訓練集，從而訓練出擁有一定決策能力的人工智慧。典型的代表案例就是谷歌的AlphaGo, 通過大量圍棋棋局的學習，最終擁有了打敗圍棋世界冠軍的能力。

商業分析：

從大量的使用者行為資料中挖掘出有價值的商業資訊。典型代表是著名社交公司LinkedIn，他們通過使用者之間的關聯關係，繪畫出學校、公司、人才之間龐大而複雜的資訊網路。不僅如此，LinkedIn還通過大量求職者和招聘方的資訊，分析出哪些公司正在迅速擴張，哪些公司正在流失人才，哪些公司之間正在展開人才市場的爭奪。這些對於客戶公司來說，都是無價之寶。

犯罪預測：

洛杉磯警察局曾經藉助一套原本用於預測地震後餘震的大資料模型，把過去80年內的130萬個犯罪記錄資料輸入進去，結果發現其預測出的犯罪高發地點與現實驚人的吻合。後來該預測演算法經過改進，已經成為了當地警局重要的參考依據，大大降低了當地的犯罪率。

這裡所介紹的相關知識，只是作者對於大資料領域的淺層次理解。通過這篇漫畫，希望沒有從事過IT行業，或者不瞭解大資料的朋友們能夠對大資料有一些初步的認知。

希望有經驗的朋友們對本文提出寶貴意見，指出其中的紕漏和不足，非常感謝！

打賞支援我寫出更多好文章，謝謝！
打賞作者

打賞支援我寫出更多好文章，謝謝！

漫畫：什麼是大資料？

漫畫：什麼是機器學習
2018-05-03
機器學習
漫畫版：什麼是機器學習？
2020-04-06
機器學習
漫畫：什麼是氣泡排序？
2018-10-09
排序
漫畫：什麼是計數排序？
2018-11-04
排序
漫畫：什麼是單例模式？
2018-01-19
單例模式
漫畫 | 什麼是區塊鏈？
2018-03-11
區塊鏈
漫畫：什麼是架構師
2018-05-03
架構
漫畫：什麼是人工智慧
2018-05-03
人工智慧
漫畫版：什麼是深度學習？
2020-03-28
深度學習
漫畫版：什麼是人工智慧？
2020-04-04
人工智慧
漫畫：什麼是LRU演算法？
2019-03-03
演算法
漫畫：什麼是HashMap？（底層原理）
2019-09-07
HashMap
漫畫：容器技術docker是什麼？
2019-01-02
Docker
漫畫：什麼是動態規劃？
2017-12-08
動態規劃
漫畫版：什麼是神經網路？
2020-03-30
神經網路
漫畫演算法：什麼是 B 樹？
2017-07-09
演算法
什麼是大資料？大資料能做什麼？
2022-03-20
大資料
什麼是大資料?大資料開發是做什麼的?
2019-12-04
大資料
漫畫 | 程式設計師的悲哀是什麼？
2021-02-02
程式設計師
用漫畫的形式展現——什麼是web
2021-01-01
Web
漫畫演算法：什麼是跳躍表？
2017-07-04
演算法
什麼是大資料？
2022-06-22
大資料
漫畫 | 到底是什麼讓IT人如此苦逼？？？
2020-08-09
到底什麼是大資料？新手學大資料的路徑是什麼？
2019-10-25
大資料
什麼是大資料安全?
2022-09-02
大資料
大資料分析是什麼
2022-03-09
大資料
漫畫演算法：輾轉相除法是什麼鬼？
2016-09-30
演算法
大資料是什麼？大資料的趨勢？
2019-06-22
大資料
什麼是大資料？Python和大資料有什麼聯絡？
2020-12-02
大資料Python
什麼是大資料開發？
2019-05-31
大資料
什麼是大資料血緣？
2019-08-30
大資料
大資料開發需要學習什麼？大資料平臺是什麼？
2019-07-07
大資料
什麼是大資料視覺化
2020-10-20
大資料視覺化
大資料的主要特徵是什麼？
2015-12-20
大資料特徵
大資料是個什麼鬼啦？
2014-08-22
大資料
【漫畫】資料雲，真香在哪？
2021-12-17
玩遊戲、畫畫、做大資料…EXCEL還有什麼是做不到的？
2020-11-30
遊戲大資料Excel
什麼是資料庫？什麼是雲資料庫？
2016-11-05
資料庫

漫畫：什麼是大資料？

打賞支援我寫出更多好文章，謝謝！

相關文章