大資料的興起
大資料的大規模應用現在仍然處於起步階段,但卻已經帶給我們這個時代巨大的改變與機遇。用狄更斯《生存記》中的一句話” 這是一個最好的時代, 也是一個最壞的時代”來描述今天大資料的發展現狀,再貼切不過了。
第三次資訊化浪潮讓大資料正式的進入人們的視野。而今年來在儲存、計算、網路方面的迅速發展,硬體裝置的成本在降低,而效能卻反過來在大幅度提升,其發展速度已經大大超過了摩爾定律
,這為大資料時代的到來提供了良好的技術支撐。
有人說是自媒體的推動了大資料時代的到來。其實不然,自媒體是讓這個時代能夠聽到每一個普通的民眾的聲音,讓那個由精英掌控社會主流文化的時代一去不復返,自媒體時代成就了網紅,而不是大資料。
而直到物聯網(IoT)的興起,各種感測器、攝像頭等每時每刻都在產生資料,是我們進入一個資訊爆炸的時代,這些資料已經超出我們人所能控制的範疇。
大資料的概念和影響
大資料的特徵(4V+1O):
資料量大(Volume):第一個特徵是資料量大,包括採集、儲存和計算的量都非常大。大資料的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
型別繁多(Variety):第二個特徵是種類和來源多樣化。包括結構化、半結構化和非結構化資料,具體表現為網路日誌、音訊、視訊、圖片、地理位置資訊等等,多型別的資料對資料的處理能力提出了更高的要求。
價值密度低(Value):第三個特徵是資料價值密度相對較低,或者說是浪裡淘沙卻又彌足珍貴。隨著網際網路以及物聯網的廣泛應用,資訊感知無處不在,資訊海量,但價值密度較低,如何結合業務邏輯並通過強大的機器演算法來挖掘資料價值,是大資料時代最需要解決的問題。
速度快時效高(Velocity):第四個特徵資料增長速度快,處理速度也快,時效性要求高。比如搜尋引擎要求幾分鐘前的新聞能夠被使用者查詢到,個性化推薦演算法儘可能要求實時完成推薦。這是大資料區別於傳統資料探勘的顯著特徵。
資料是線上的(Online):資料是永遠線上的,是隨時能呼叫和計算的,這是大資料區別於傳統資料最大的特徵。現在我們所談到的大資料不僅僅是大,更重要的是資料變的線上了,這是網際網路高速發展背景下的特點。比如,對於叫車工具,客戶的資料和出租司機資料都是實時線上的,這樣的資料才有意義。如果是放在磁碟中而且是離線的,這些資料遠遠不如線上的商業價值大。
影響
1.全樣而非抽樣:
以往資料量龐大,無法儲存和分析,統計學只能採用抽樣。目前大資料技術的發展,儲存、計算裝置的成本不斷的降低。我們有足夠的儲存空間,我們的計算也不僅僅侷限於一臺計算裝置之上。我們完全可使用分散式系統進行儲存,使用成千上萬個CPU進行計算。
2.效率而非精確:
以往做抽樣分析,人們必須不斷地追求演算法的精度,因為一旦我們將抽樣計算的結果,運用到全樣以後,誤差將會被放大。而使使用大資料技術,由於直接拿全樣做分析,因此不用刻意追求精確性。而很多資料都具有時效性,因此,更關注效率。
3.相關而非因果:
大資料時代,我們更加關注資料之間的聯絡,而這種相關性就能夠使資料產生價值。比如:推薦系統。
大資料的應用
- 投資領域:量化投資;
- 金融領域:風控;
- 交通領域:線路優化;
- 消費領域:精準營銷;
- 醫療領域:健康管理,癌症預測。Google通過大資料預測甲型H1N1流感;
- 安全領域:犯罪預測;
- 娛樂領域:照相測年齡、cnn畢加索畫風創作;
- 體育:馬刺的進攻方法,發現他們的每次進攻得分,依賴於他們的傳球路線;
轉載自BigData4All