大資料教程系列之大資料概念

好程式設計師發表於2020-05-29

  大資料教程系列之大資料概念 隨著大資料時代的到來,“大資料”已經成為網際網路資訊科技行業的流行詞彙。關於什麼是大資料這個問題,大家比較認可大資料的“ 4V ”說法。大資料的四個 V ,即說的是大資料的四個特徵,分別是資料量大( Volume )、資料型別繁多( Variety )、處理速度快( Velocity )、價值密度低( Value )。

   1、資料量大(Volume)

   如果把印刷在紙上的文字和圖形也看成資料的話,那麼人類歷史上第一次資料爆炸發生在造紙術和印刷術發明的時期。而從1986年開始到2010年的二十多年間,全球產生的資料增長了100倍。

   隨著時間,資料產生的速度更快,我們正生活在一個“資料爆炸”的時代。

   今天,世界上30%的設定是聯網的,而在不遠的將來,將有更多的使用者成為網民,汽車,電視,家用電器,生產機器等各種裝置也將全面接入網際網路。隨著物聯網的推廣和普及,各種感測器和攝像頭將遍佈我們工作和生活的各個角落,這些裝置每時每刻都在自動產生大量資料。

   根據著名諮詢機構IDC(Internet Data Center)做出的估測,人類社會產生的資料一直都在以每年50%的速度增長,也就是說,每兩年就增加一倍,這被稱為“大資料摩爾定律”。

   這意味著,人類在最近兩年產生的資料量相當於之前產生的全部資料量之和。預計到2020年,全球將總共擁有35ZB的資料量,與2010年相比,資料量將增長到近30倍。

   單位 換算關係

   Byte(位元組) 1Byte=8bit

   KB(Kilobyte 千位元組) 1KB=1024Byte

   MB(MegaByte,兆位元組) 1MB=1024KB

   GB(Gigabyte,吉位元組) 1GB=1024MB

   TB(Trillionbyte,太位元組) 1TB=1024GB

   PB(Petabyte,派位元組) 1PB=1024TB

   EB(Exabyte,艾位元組) 1EB=1024PB

   ZB(Zettabyte,澤位元組) 1ZB=1024EB

   2、資料型別繁多(Variety)

   大資料的資料來源眾多,科學研究、企業應用和Web應用等都在源源不斷地生成新的資料。生物大資料、交通大資料、醫療大資料、電信大資料、電力大資料、金融大資料等,都呈現出“井噴式”增長,所涉及的數量十分巨大,已經從TB級別躍升到PB級別。

   大資料的資料型別豐富,包括結構化資料和非結構化資料,其中,前者佔10%左右,主要是指儲存在關聯式資料庫中的資料,後者佔90%左右,種類繁多,主要包括郵件、音訊、影片、微信、微博、位置資訊、連結資訊、手機呼叫資訊、網路日誌等。

   如此型別繁多的異構資料,對資料處理和分析技術提出了新的挑戰,也帶來了新的機遇。

   3、處理速度快(Velocity)

   大資料時代的資料產生速度非常迅速。在Web 2.0應用領域,在1分鐘內,新浪可以產生2萬條微博,Twitter可以產生10萬條推文,蘋果可以下載4.7萬次應用,淘寶可以賣出6萬件商品,人人網可以發生30萬次訪問,百度可以產生90萬次搜尋查詢,Facebook可以產生600萬次瀏覽量。大名鼎鼎的大型強子對撞機(LHC),大約每秒產生6億次的碰撞,每秒生成約700MB的資料,有成千上萬臺計算機分析這些碰撞。

   大資料時代的很多應用,都需要基於快速生成的資料給出實時分析結果,用於指導生產和生活實踐,因此,資料處理和分析的速度通常要達到秒級響應,這一點和傳統的資料探勘技術有著本質的不同,後者通常不要求給出實時分析結果。

   為了實現快速分析海量資料的目的,新興的大資料分析技術通常採用叢集處理和獨特的內部設計。以谷歌公司的Dremel為例,它是一種可擴充套件的、互動式的實時查詢系統,用於只讀巢狀資料的分析,透過結合多級樹狀執行過程和列式資料結構,它能做到幾秒內完成對萬億張表的聚合查詢,系統可以擴充套件到成千上萬的CPU上,滿足谷歌上萬使用者操作PB級資料的需求,並且可以在2~3秒內完成PB級別資料的查詢。

   4、價值密度低(value)

   大資料雖然看起來很美,但是,價值密度卻遠遠低於傳統關聯式資料庫中已經有的那些資料。在大資料時代,很多有價值的資訊都是分散在海量資料中的。以小區監控影片為例,如果沒有意外事件發生,連續不斷產生的資料都是沒有任何價值的,當發生偷盜等意外情況時,也只有記錄了事件過程的那一小段影片是有價值的。但是,為了能夠獲得發生偷盜等意外情況時的那一段寶貴的影片,我們不得不投入大量資金購買監控裝置、網路裝置、儲存裝置,耗費大量的電能和儲存空間,來儲存攝像頭連續不斷傳來的監控資料。

   如果這個例項還不夠典型的話,那麼我們可以想象另一個更大的場景。假設一個電子商務網站希望透過微博資料進行有針對性營銷,為了實現這個目的,就必須構建一個能儲存和分析新浪微博資料的大資料平臺,使之能夠根據使用者微博內容進行有針對性的商品需求趨勢預測。願景很美好,但是,現實代價很大,可能需要耗費幾百萬元構建整個大資料團隊和平臺,而最終帶來的企業銷售利潤增加額可能會比投入低許多,從這點來說,大資料的價值密度是較低的。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2694988/,如需轉載,請註明出處,否則將追究法律責任。

相關文章