大資料教程系列之大資料概念
大資料教程系列之大資料概念 , 隨著大資料時代的到來,“大資料”已經成為網際網路資訊科技行業的流行詞彙。關於什麼是大資料這個問題,大家比較認可大資料的“ 4V ”說法。大資料的四個 V ,即說的是大資料的四個特徵,分別是資料量大( Volume )、資料型別繁多( Variety )、處理速度快( Velocity )、價值密度低( Value )。
1、資料量大(Volume)
如果把印刷在紙上的文字和圖形也看成資料的話,那麼人類歷史上第一次資料爆炸發生在造紙術和印刷術發明的時期。而從1986年開始到2010年的二十多年間,全球產生的資料增長了100倍。
隨著時間,資料產生的速度更快,我們正生活在一個“資料爆炸”的時代。
今天,世界上30%的設定是聯網的,而在不遠的將來,將有更多的使用者成為網民,汽車,電視,家用電器,生產機器等各種裝置也將全面接入網際網路。隨著物聯網的推廣和普及,各種感測器和攝像頭將遍佈我們工作和生活的各個角落,這些裝置每時每刻都在自動產生大量資料。
根據著名諮詢機構IDC(Internet Data Center)做出的估測,人類社會產生的資料一直都在以每年50%的速度增長,也就是說,每兩年就增加一倍,這被稱為“大資料摩爾定律”。
這意味著,人類在最近兩年產生的資料量相當於之前產生的全部資料量之和。預計到2020年,全球將總共擁有35ZB的資料量,與2010年相比,資料量將增長到近30倍。
單位 換算關係
Byte(位元組) 1Byte=8bit
KB(Kilobyte 千位元組) 1KB=1024Byte
MB(MegaByte,兆位元組) 1MB=1024KB
GB(Gigabyte,吉位元組) 1GB=1024MB
TB(Trillionbyte,太位元組) 1TB=1024GB
PB(Petabyte,派位元組) 1PB=1024TB
EB(Exabyte,艾位元組) 1EB=1024PB
ZB(Zettabyte,澤位元組) 1ZB=1024EB
2、資料型別繁多(Variety)
大資料的資料來源眾多,科學研究、企業應用和Web應用等都在源源不斷地生成新的資料。生物大資料、交通大資料、醫療大資料、電信大資料、電力大資料、金融大資料等,都呈現出“井噴式”增長,所涉及的數量十分巨大,已經從TB級別躍升到PB級別。
大資料的資料型別豐富,包括結構化資料和非結構化資料,其中,前者佔10%左右,主要是指儲存在關聯式資料庫中的資料,後者佔90%左右,種類繁多,主要包括郵件、音訊、影片、微信、微博、位置資訊、連結資訊、手機呼叫資訊、網路日誌等。
如此型別繁多的異構資料,對資料處理和分析技術提出了新的挑戰,也帶來了新的機遇。
3、處理速度快(Velocity)
大資料時代的資料產生速度非常迅速。在Web 2.0應用領域,在1分鐘內,新浪可以產生2萬條微博,Twitter可以產生10萬條推文,蘋果可以下載4.7萬次應用,淘寶可以賣出6萬件商品,人人網可以發生30萬次訪問,百度可以產生90萬次搜尋查詢,Facebook可以產生600萬次瀏覽量。大名鼎鼎的大型強子對撞機(LHC),大約每秒產生6億次的碰撞,每秒生成約700MB的資料,有成千上萬臺計算機分析這些碰撞。
大資料時代的很多應用,都需要基於快速生成的資料給出實時分析結果,用於指導生產和生活實踐,因此,資料處理和分析的速度通常要達到秒級響應,這一點和傳統的資料探勘技術有著本質的不同,後者通常不要求給出實時分析結果。
為了實現快速分析海量資料的目的,新興的大資料分析技術通常採用叢集處理和獨特的內部設計。以谷歌公司的Dremel為例,它是一種可擴充套件的、互動式的實時查詢系統,用於只讀巢狀資料的分析,透過結合多級樹狀執行過程和列式資料結構,它能做到幾秒內完成對萬億張表的聚合查詢,系統可以擴充套件到成千上萬的CPU上,滿足谷歌上萬使用者操作PB級資料的需求,並且可以在2~3秒內完成PB級別資料的查詢。
4、價值密度低(value)
大資料雖然看起來很美,但是,價值密度卻遠遠低於傳統關聯式資料庫中已經有的那些資料。在大資料時代,很多有價值的資訊都是分散在海量資料中的。以小區監控影片為例,如果沒有意外事件發生,連續不斷產生的資料都是沒有任何價值的,當發生偷盜等意外情況時,也只有記錄了事件過程的那一小段影片是有價值的。但是,為了能夠獲得發生偷盜等意外情況時的那一段寶貴的影片,我們不得不投入大量資金購買監控裝置、網路裝置、儲存裝置,耗費大量的電能和儲存空間,來儲存攝像頭連續不斷傳來的監控資料。
如果這個例項還不夠典型的話,那麼我們可以想象另一個更大的場景。假設一個電子商務網站希望透過微博資料進行有針對性營銷,為了實現這個目的,就必須構建一個能儲存和分析新浪微博資料的大資料平臺,使之能夠根據使用者微博內容進行有針對性的商品需求趨勢預測。願景很美好,但是,現實代價很大,可能需要耗費幾百萬元構建整個大資料團隊和平臺,而最終帶來的企業銷售利潤增加額可能會比投入低許多,從這點來說,大資料的價值密度是較低的。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2694988/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料教程之大資料的影響二大資料
- 大資料技術之大資料概論大資料
- 大資料概念:史上最全大資料解析大資料
- 什麼叫大資料 大資料的概念大資料
- 大資料平臺之大資料處理系統的架構大資料架構
- 到底什麼才是大資料技術?大資料的概念?大資料
- 大資料教程系列之Kafka和activemq對比大資料KafkaMQ
- 大資料是什麼?IPIDEA解析大資料的基本概念大資料Idea
- 好程式設計師大資料教程分享:HDFS基本概念程式設計師大資料
- 好程式設計師大資料學習路線之大資料自學路線二程式設計師大資料
- 好程式設計師大資料學習路線之大資料自學路線一程式設計師大資料
- 資料智慧的未來,是不再有大資料的概念大資料
- 大資料系列 1:大資料技術發展歷程大資料
- 大資料教程分享實用的大資料之陣列大資料陣列
- 好程式設計師大資料教程Scala系列之類程式設計師大資料
- 大資料學習—Spark核心概念RDD大資料Spark
- 資料血緣系列(4)—— 資料血緣的特點與相關概念
- 大資料小白系列——MR(1)大資料
- 大資料小白系列——HDFS(1)大資料
- 大資料小白系列——HDFS(2)大資料
- 大資料小白系列——MR(3)大資料
- 大資料小白系列——HDFS(4)大資料
- 大資料小白系列——HDFS(3)大資料
- 大資料時代之你不得不知道的大資料概念大資料
- 大資料是什麼?一文帶你瞭解大資料的概念!大資料
- 33 個 JavaScript 核心概念系列(一): 資料型別JavaScript資料型別
- 從入門到放棄之大資料Hive大資料Hive
- 大咖雲集,清華方圓系列之大資料分析與視覺化報告會 | 報名大資料視覺化
- 好程式設計師大資料教程Scala系列之繼承程式設計師大資料繼承
- 大資料Lambda架構概念及應用大資料架構
- 資料庫概論 (一)資料庫概念資料庫
- 資料庫的概念資料庫
- 玩轉大資料系列之一:資料採集與同步大資料
- 玩轉大資料系列之二:資料分析與處理大資料
- 玩轉大資料系列之三:資料包表與展示大資料
- elasticsearch查詢之大資料集分頁效能分析Elasticsearch大資料
- elasticsearch查詢之大資料集分頁查詢Elasticsearch大資料
- 好程式設計師大資料教程分享Scala系列之閉包程式設計師大資料