大資料概念:史上最全大資料解析

黨偉_90發表於2018-04-08

轉載自:https://blog.csdn.net/smxjant/article/details/70240809

現如今,我們身邊很多人對一些熱門的新技術、新趨勢往往趨之若鶩卻又很難說得透徹,比如大資料,如果被問大資料和你有什麼關係,估計很少能說出一二三來。究其原因,一是因為大家對新技術有著相同的原始渴求,至少知其然,在聊天時不會顯得很“土鱉”;二是在工作和生活環境中,真正能參與實踐的大資料案例實在太少了,所以大家沒有機會花時間去知其所以然。

  我希望有些不一樣,所以對該如何去認識大資料進行了一番思索,包括查閱了資料,翻閱了最新的專業書籍,但我並不想把那些零散的資料碎片或不同理解論述簡單規整並堆積起來形成毫無價值的轉述或評論,我很真誠的希望進入事物探尋本質。

  如果你說大資料就是資料大,或者侃侃而談4個V,也許很有深度的談到BI或預測的價值,又或者拿Google和Amazon舉例,技術流可能會聊起Hadoop和Cloud Computing,不管對錯,只是無法勾勒對大資料的整體認識,不說是片面,但至少有些管窺蠡測、隔衣瘙癢了。……也許,“解構”是最好的方法。

  怎樣結構大資料?

  首先,我認為大資料就是網際網路發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲端計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的資料開始容易被利用起來了,通過各行各業的不斷創新,大資料會逐步為人類創造更多的價值。

  其次,想要系統的認知大資料,必須要全面而細緻的分解它,我著手從三個層面來展開:

  第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。我會從大資料的特徵定義理解行業對大資料的整體描繪和定性;從對大資料價值的探討來深入解析大資料的珍貴所在;從對大資料的現在和未來去洞悉大資料的發展趨勢;從大資料隱私這個特別而重要的視角審視人和資料之間的長久博弈。

  第二層面是技術,技術是大資料價值體現的手段和前進的基石。我將分別從雲端計算、分散式處理技術、儲存技術和感知技術的發展來說明大資料從採集、處理、儲存到形成結果的整個過程。

  第三層面是實踐,實踐是大資料的最終價值體現。我將分別從網際網路的大資料,政府的大資料,企業的大資料和個人的大資料四個方面來描繪大資料已經展現的美好景象及即將實現的藍圖。

  和大資料相關的理論

   特徵定義

  最早提出大資料時代到來的是麥肯錫:“資料,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量資料的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。”

  業界(IBM 最早定義)將大資料的特徵歸納為4個“V”(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,資料體量巨大。大資料的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,資料型別繁多。比如,網路日誌、視訊、圖片、地理位置資訊等等。第三,價值密度低,商業價值高。第四,處理速度快。最後這一點也是和傳統的資料探勘技術有著本質的不同。

  其實這些V並不能真正說清楚大資料的所有特徵,下面這張圖對大資料的一些相關特性做出了有效的說明。

  古語云:三分技術,七分資料,得資料者得天下。先不論誰說的,但是這句話的正確性已經不用去論證了。維克托·邁爾-舍恩伯格在《大資料時代》一書中舉了百般例證,都是為了說明一個道理:在大資料時代已經到來的時候要用大資料思維去發掘大資料的潛在價值。書中,作者提及最多的是Google如何利用人們的搜尋記錄挖掘資料二次利用價值,比如預測某地流感爆發的趨勢;Amazon如何利用使用者的購買和瀏覽歷史資料進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價格打折資料,來預測使用者購買機票的時機是否合適。

  那麼,什麼是大資料思維?維克托·邁爾-舍恩伯格認為,1-需要全部資料樣本而不是抽樣;2-關注效率而不是精確度;3-關注相關性而不是因果關係。

  阿里巴巴的王堅對於大資料也有一些獨特的見解,比如,

  “今天的資料不是大,真正有意思的是資料變得線上了,這個恰恰是網際網路的特點。”

  “非網際網路時期的產品,功能一定是它的價值,今天網際網路的產品,資料一定是它的價值。”

  “你千萬不要想著拿資料去改進一個業務,這不是大資料。你一定是去做了一件以前做不了的事情。”

  特別是最後一點,我是非常認同的,大資料的真正價值在於創造,在於填補無數個還未實現過的空白。

  有人把資料比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大資料並不在“大”,而在於“有用”。價值含量、挖掘成本比數量更為重要。

   價值探討

  大資料是什麼?投資者眼裡是金光閃閃的兩個字:資產。比如,Facebook上市時,評估機構評定的有效資產中大部分都是其社交網站上的資料。

  如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的“加工能力”,通過“加工”實現資料的“增值”。

  Target 超市以20多種懷孕期間孕婦可能會購買的商品為基礎,將所有使用者的購買記錄作為資料來源,通過構建模型分析購買者的行為相關性,能準確的推斷出孕婦的具體臨盆時間,這樣Target的銷售部門就可以有針對的在每個懷孕顧客的不同階段寄送相應的產品優惠卷。

  Target的例子是一個很典型的案例,這樣印證了維克托·邁爾-舍恩伯格提過的一個很有指導意義的觀點:通過找出一個關聯物並監控它,就可以預測未來。Target通過監測購買者購買商品的時間和品種來準確預測顧客的孕期,這就是對資料的二次利用的典型案例。如果,我們通過採集駕駛員手機的GPS資料,就可以分析出當前哪些道路正在堵車,並可以及時釋出道路交通提醒;通過採集汽車的GPS位置資料,就可以分析城市的哪些區域停車較多,這也代表該區域有著較為活躍的人群,這些分析資料適合賣給廣告投放商。

  不管大資料的核心價值是不是預測,但是基於大資料形成決策的模式已經為不少的企業帶來了盈利和聲譽。

  從大資料的價值鏈條來分析,存在三種模式:

  1- 手握大資料,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。

  2- 沒有資料,但是知道如何幫助有資料的人利用它;比較典型的是IT諮詢和服務企業,比如,埃森哲,IBM,Oracle等。

  3- 既有資料,又有大資料思維;比較典型的是Google,Amazon,Mastercard等。

  未來在大資料領域最具有價值的是兩種事物:1-擁有大資料思維的人,這種人可以將大資料的潛在價值轉化為實際利益;2-還未有被大資料觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。

  Wal-Mart作為零售行業的巨頭,他們的分析人員會對每個階段的銷售記錄進行了全面的分析,有一次他們無意中發現雖不相關但很有價值的資料,在美國的颶風來臨季節,超市的蛋撻和抵禦颶風物品竟然銷量都有大幅增加,於是他們做了一個明智決策,就是將蛋撻的銷售位置移到了颶風物品銷售區域旁邊,看起來是為了方便使用者挑選,但是沒有想到蛋撻的銷量因此又提高了很多。

  還有一個有趣的例子,1948年遼瀋戰役期間,司令員林彪要求每天要進行例常的“每日軍情彙報”,由值班參謀讀出下屬各個縱隊、師、團用電臺報告的當日戰況和繳獲情況。那幾乎是重複著千篇一律枯燥無味的資料:每支部隊殲敵多少、俘虜多少;繳獲的火炮、車輛多少,槍支、物資多少……有一天,參謀照例彙報當日的戰況,林彪突然打斷他:“剛才唸的在胡家窩棚那個戰鬥的繳獲,你們聽到了嗎?”大家都很茫然,因為如此戰鬥每天都有幾十起,不都是差不多一模一樣的枯燥數字嗎?林彪掃視一週,見無人回答,便接連問了三句:“為什麼那裡繳獲的短槍與長槍的比例比其它戰鬥略高?”“為什麼那裡繳獲和擊毀的小車與大車的比例比其它戰鬥略高?”“為什麼在那裡俘虜和擊斃的軍官與士兵的比例比其它戰鬥略高?”林彪司令員大步走向掛滿軍用地圖的牆壁,指著地圖上的那個點說:“我猜想,不,我斷定!敵人的指揮所就在這裡!”果然,部隊很快就抓住了敵方的指揮官廖耀湘,並取得這場重要戰役的勝利。

  這些例子真實的反映在各行各業,探求資料價值取決於把握資料的人,關鍵是人的資料思維;與其說是大資料創造了價值,不如說是大資料思維觸發了新的價值增長。

   現在和未來

  我們先看看大資料在當下有怎樣的傑出表現:

  大資料幫助政府實現市場經濟調控、公共衛生安全防範、災難預警、社會輿論監督;

  大資料幫助城市預防犯罪,實現智慧交通,提升緊急應急能力;

  大資料幫助醫療機構建立患者的疾病風險跟蹤機制,幫助醫藥企業提升藥品的臨床使用效果,幫助愛滋病研究機構為患者提供定製的藥物;

  大資料幫助航空公司節省運營成本,幫助電信企業實現售後服務質量提升,幫助保險企業識別欺詐騙保行為,幫助快遞公司監測分析運輸車輛的故障險情以提前預警維修,幫助電力公司有效識別預警即將發生故障的裝置;

  大資料幫助電商公司向使用者推薦商品和服務,幫助旅遊網站為旅遊者提供心儀的旅遊路線,幫助二手市場的買賣雙方找到最合適的交易目標,幫助使用者找到最合適的商品購買時期、商家和最優惠價格;

  大資料幫助企業提升營銷的針對性,降低物流和庫存的成本,減少投資的風險,以及幫助企業提升廣告投放精準度;

  大資料幫助娛樂行業預測歌手,歌曲,電影,電視劇的受歡迎程度,併為投資者分析評估拍一部電影需要投入多少錢才最合適,否則就有可能收不回成本;

  大資料幫助社交網站提供更準確的好友推薦,為使用者提供更精準的企業招聘資訊,向使用者推薦可能喜歡的遊戲以及適合購買的商品。

  其實,這些還遠遠不夠,未來大資料的身影應該無處不在,就算無法準確預測大資料終會將人類社會帶往到哪種最終形態,但我相信只要發展腳步在繼續,因大資料而產生的變革浪潮將很快淹沒地球的每一個角落。

  比如,Amazon的最終期望是:“最成功的書籍推薦應該只有一本書,就是使用者要買的下一本書。”

  Google也希望當使用者在搜尋時,最好的體驗是搜尋結果只包含使用者所需要的內容,而這並不需要使用者給予Google太多的提示。

  而當物聯網發展到達一定規模時,藉助條形碼、二維碼、RFID等能夠唯一標識產品,感測器、可穿戴裝置、智慧感知、視訊採集、擴增實境等技術可實現實時的資訊採集和分析,這些資料能夠支撐智慧城市,智慧交通,智慧能源,智慧醫療,智慧環保的理念需要,這些都所謂的智慧將是大資料的採集資料來源和服務範圍。

  未來的大資料除了將更好的解決社會問題,商業營銷問題,科學技術問題,還有一個可預見的趨勢是以人為本的大資料方針。人才是地球的主宰,大部分的資料都與人類有關,要通過大資料解決人的問題。

  比如,建立個人的資料中心,將每個人的日常生活習慣,身體體徵,社會網路,知識能力,愛好性情,疾病嗜好,情緒波動……換言之就是記錄人從出生那一刻起的每一分每一秒,將除了思維外的一切都儲存下來,這些資料可以被充分的利用:

  醫療機構將實時的監測使用者的身體健康狀況;

  教育機構更有針對的制定使用者喜歡的教育培訓計劃;

  服務行業為使用者提供即時健康的符合使用者生活習慣的食物和其它服務;

  社交網路能為你提供合適的交友物件,併為志同道合的人群組織各種聚會活動;

  政府能在使用者的心理健康出現問題時有效的干預,防範自殺,刑事案件的發生;

  金融機構能幫助使用者進行有效的理財管理,為使用者的資金提供更有效的使用建議和規劃;

  道路交通、汽車租賃及運輸行業可以為使用者提供更合適的出行線路和路途服務安排;

  ……

  當然,上面的一切看起來都很美好,但是否是以犧牲了使用者的自由為前提呢?只能說當新鮮事物帶來了革新的同時也同樣帶來了“病菌”。比如,在手機未普及前,大家喜歡聚在一起聊天,自從手機普及後特別是有了網際網路,大家不用聚在一起也可以隨時隨地的聊天,只是“病菌”滋生了另外一種情形,大家慢慢習慣了和手機共渡時光,人與人之間情感交流彷彿永遠隔著一張“網”。

   大資料隱私

  你或許並不敏感,當你在不同的網站上註冊了個人資訊後,可能這些資訊已經被擴散出去了,當你莫名其妙的接到各種郵件,電話,簡訊的滋擾時,你不會想到自己的電話號碼,郵箱,生日,購買記錄,收入水平,家庭住址,親朋好友等私人資訊早就被各種商業機構非法儲存或賤賣給其它任何有需要的企業或個人了。

  更可怕的是,這些資訊你永遠無法刪除,它們永遠存在於網際網路的某些你不知道的角落。除非你更換掉自己的所有資訊,但是這代價太大了。

  使用者隱私問題一直是大資料應用難以繞開的一個問題,如被央視曝光過的分眾無線、羅維鄧白氏以及網易郵箱都涉及侵犯使用者隱私。目前,中國並沒有專門的法律法規來界定使用者隱私,處理相關問題時多采用其他相關法規條例來解釋。但隨著民眾隱私意識的日益增強,合法合規地獲取資料、分析資料和應用資料,是進行大資料分析時必須遵循的原則。

  說到隱私被侵犯,愛德華斯諾登應該佔據一席之地,這位前美國中央情報局(CIA)僱員一手引爆了美國“稜鏡計劃”(PRISM)的內幕訊息。“稜鏡”專案是一項由美國國家安全域性(NSA)自2007年起開始實施的絕密電子監聽計劃,年耗資近2000億美元,用於監聽全美電話通話記錄,據稱還可以使情報人員通過“後門”進入9家主要科技公司的伺服器,包括微軟、雅虎、谷歌、Facebook、PalTalk、美國線上、Skype、YouTube、蘋果。這個事件引發了人們對政府使用大資料時對公民隱私侵犯的擔心。

  再看看我們身邊,當微博,微信,QQ空間這些社交平臺肆意的吞噬著數億使用者的各種資訊時,你就不要指望你還有隱私權了,就算你在某個地方刪除了,但也許這些資訊已經被其他人轉載或儲存了,更有可能已經被百度或Google存為快照,早就提供給任意使用者搜尋了。

  因此在大資料的背景下,很多人都在積極的抵制無底線的數字化,這種大資料和個體之間的博弈還會一直繼續下去……

  專家給予了我們一些如何有效保護大資料背景下隱私權的建議:1-減少資訊的數字化;2-隱私權立法;3-數字隱私權基礎設施(類似DRM數字版權管理);4-人類改變認知(接受忽略過去);5-創造良性的資訊生態;6-語境化。

  但是這些都很難立即見效或者有實質性的改善。

  比如,現在有一種職業叫刪帖人,專門負責幫人到各大網站刪帖,刪除評論。其實這些人就是通過黑客技術侵入各大網站,破獲管理員的密碼然後進行手工定向刪除。只不過他們保護的不是客戶的隱私,而大多是醜聞。還有一種職業叫人肉專家,他們負責從網際網路上找到一個與他們根本就無關係使用者的任意資訊。這是很可怕的事情,也就是說,如果有人想找到你,只需要兩個條件:1-你上過網,留下過痕跡;2-你的親朋好友或僅僅是認識你的人上過網,留下過你的痕跡。這兩個條件滿足其一,人肉專家就可以很輕鬆的找到你,可能還知道你現在正在某個餐廳和誰一起共進晚餐。

  當很多網際網路企業意識到隱私對於使用者的重要性時,為了繼續得到使用者的信任,他們採取了很多辦法,比如google承諾僅保留使用者的搜尋記錄9個月,瀏覽器廠商提供了無痕衝浪模式,社交網站拒絕公共搜尋引擎的爬蟲進入,並將提供出去的資料全部採取匿名方式處理等。

  在這種複雜的環境裡面,很多人依然沒有建立對於資訊隱私的保護意識,讓自己一直處於被滋擾,被精心設計,被利用,被監視的處境中。可是,我們能做的幾乎微乎其微,因為個人隱私資料已經無法由我們自己掌控了,就像一首詩裡說到的:“如果你現在繼續麻木,那就別指望這麻木能抵擋得住被”扒光”那一刻的驚恐和絕望……”

  和大資料相關的技術

   雲技術

  大資料常和雲端計算聯絡到一起,因為實時的大型資料集分析需要分散式處理框架來向數十、數百或甚至數萬的電腦分配工作。可以說,雲端計算充當了工業革命時期的發動機的角色,而大資料則是電。

  雲端計算思想的起源是麥卡錫在上世紀60年代提出的:把計算能力作為一種像水和電一樣的公用事業提供給使用者。

  如今,在Google、Amazon、Facebook等一批網際網路企業引領下,一種行之有效的模式出現了:雲端計算提供基礎架構平臺,大資料應用執行在這個平臺上。

  業內是這麼形容兩者的關係:沒有大資料的資訊積澱,則雲端計算的計算能力再強大,也難以找到用武之地;沒有云計算的處理能力,則大資料的資訊積澱再豐富,也終究只是鏡花水月。

  那麼大資料到底需要哪些雲端計算技術呢?

  這裡暫且列舉一些,比如虛擬化技術,分散式處理技術,海量資料的儲存和管理技術,NoSQL、實時流資料處理、智慧分析技術(類似模式識別以及自然語言理解)等。

  雲端計算和大資料之間的關係可以用下面的一張圖來說明,兩者之間結合後會產生如下效應:可以提供更多基於海量業務資料的創新型服務;通過雲端計算技術的不斷髮展降低大資料業務的創新成本。

  如果將雲端計算與大資料進行一些比較,最明顯的區分在兩個方面:

  第一,在概念上兩者有所不同,雲端計算改變了IT,而大資料則改變了業務。然而大資料必須有云作為基礎架構,才能得以順暢運營。

  第二,大資料和雲端計算的目標受眾不同,雲端計算是CIO等關心的技術層,是一個進階的IT解決方案。而大資料是CEO關注的、是業務層的產品,而大資料的決策者是業務層。

   分散式處理技術

  分散式處理系統可以將不同地點的或具有不同功能的或擁有不同資料的多臺計算機用通訊網路連線起來,在控制系統的統一管理控制下,協調地完成資訊處理任務—這就是分散式處理系統的定義。

  以Hadoop(Yahoo)為例進行說明,Hadoop是一個實現了MapReduce模式的能夠對大量資料進行分散式處理的軟體框架,是以一種可靠、高效、可伸縮的方式進行處理的。

  而MapReduce是Google提出的一種雲端計算的核心計算模式,是一種分散式運算技術,也是簡化的分散式程式設計模式,MapReduce模式的主要思想是將自動分割要執行的問題(例如程式)拆解成map(對映)和reduce(化簡)的方式,在資料被分割後通過Map 函式的程式將資料對映成不同的區塊,分配給計算機機群處理達到分散式運算的效果,在通過Reduce 函式的程式將結果彙整,從而輸出開發者需要的結果。

  再來看看Hadoop的特性,第一,它是可靠的,因為它假設計算元素和儲存會失敗,因此它維護多個工作資料副本,確保能夠針對失敗的節點重新分佈處理。其次,Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級資料。此外,Hadoop 依賴於社群伺服器,因此它的成本比較低,任何人都可以使用。

  你也可以這麼理解Hadoop的構成,Hadoop=HDFS(檔案系統,資料儲存技術相關) HBase(資料庫) MapReduce(資料處理) ……Others

  Hadoop用到的一些技術有:

  HDFS: Hadoop分散式檔案系統(Distributed File System) - HDFS (HadoopDistributed File System)

  MapReduce:平行計算框架

  HBase: 類似Google BigTable的分散式NoSQL列資料庫。

  Hive:資料倉儲工具,由Facebook貢獻。

  Zookeeper:分散式鎖設施,提供類似Google Chubby的功能,由Facebook貢獻。

  Avro:新的資料序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。

  Pig:大資料分析平臺,為使用者提供多種介面。

  Ambari:Hadoop管理工具,可以快捷的監控、部署、管理叢集。

  Sqoop:用於在Hadoop與傳統的資料庫間進行資料的傳遞。

  說了這麼多,舉個實際的例子,雖然這個例子有些陳舊,但是淘寶的海量資料技術架構還是有助於我們理解對於大資料的運作處理機制:

  如上圖所示,淘寶的海量資料產品技術架構分為五個層次,從上至下來看它們分別是:資料來源,計算層,儲存層,查詢層和產品層。

  資料來源層。存放著淘寶各店的交易資料。在資料來源層產生的資料,通過DataX,DbSync和Timetunel準實時的傳輸到下面第2點所述的“雲梯”。

  計算層。在這個計算層內,淘寶採用的是Hadoop叢集,這個叢集,我們暫且稱之為雲梯,是計算層的主要組成部分。在雲梯上,系統每天會對資料產品進行不同的MapReduce計算。

  儲存層。在這一層,淘寶採用了兩個東西,一個使MyFox,一個是Prom。MyFox是基於MySQL的分散式關係型資料庫的叢集,Prom是基於Hadoop Hbase技術的一個NoSQL的儲存叢集。

  查詢層。在這一層中,Glider是以HTTP協議對外提供restful方式的介面。資料產品通過一個唯一的URL來獲取到它想要的資料。同時,資料查詢即是通過MyFox來查詢的。

  最後一層是產品層,這個就不用解釋了。

   儲存技術

  大資料可以抽象的分為大資料儲存和大資料分析,這兩者的關係是:大資料儲存的目的是支撐大資料分析。到目前為止,還是兩種截然不同的計算機技術領域:大資料儲存致力於研發可以擴充套件至PB甚至EB級別的資料儲存平臺;大資料分析關注在最短時間內處理大量不同型別的資料集。

  提到儲存,有一個著名的摩爾定律相信大家都聽過:18個月積體電路的複雜性就增加一倍。所以,儲存器的成本大約每18-24個月就下降一半。成本的不斷下降也造就了大資料的可儲存性。

  比如,Google大約管理著超過50萬臺伺服器和100萬塊硬碟,而且Google還在不斷的擴大計算能力和儲存能力,其中很多的擴充套件都是基於在廉價伺服器和普通儲存硬碟的基礎上進行的,這大大降低了其服務成本,因此可以將更多的資金投入到技術的研發當中。

  以Amazon舉例,Amazon S3 是一種面向 Internet 的儲存服務。該服務旨在讓開發人員能更輕鬆的進行網路規模計算。Amazon S3 提供一個簡明的 Web 服務介面,使用者可通過它隨時在 Web 上的任何位置儲存和檢索的任意大小的資料。此服務讓所有開發人員都能訪問同一個具備高擴充套件性、可靠性、安全性和快速價廉的基礎設施,Amazon 用它來執行其全球的網站網路。再看看S3的設計指標:在特定年度內為資料元提供 99.999999999% 的耐久性和 99.99% 的可用性,並能夠承受兩個設施中的資料同時丟失。

  S3很成功也確實卓有成效,S3雲的儲存物件已達到萬億級別,而且效能表現相當良好。S3雲已經擁萬億跨地域儲存物件,同時AWS的物件執行請求也達到百萬的峰值數量。目前全球範圍內已經有數以十萬計的企業在通過AWS執行自己的全部或者部分日常業務。這些企業使用者遍佈190多個國家,幾乎世界上的每個角落都有Amazon使用者的身影。

   感知技術

  大資料的採集和感知技術的發展是緊密聯絡的。以感測器技術,指紋識別技術,RFID技術,座標定位技術等為基礎的感知能力提升同樣是物聯網發展的基石。全世界的工業裝置、汽車、電錶上有著無數的數碼感測器,隨時測量和傳遞著有關位置、運動、震動、溫度、溼度乃至空氣中化學物質的變化,都會產生海量的資料資訊。

  而隨著智慧手機的普及,感知技術可謂迎來了發展的高峰期,除了地理位置資訊被廣泛的應用外,一些新的感知手段也開始登上舞臺,比如,最新的”iPhone 5S”在home鍵內嵌指紋感測器,新型手機可通過呼氣直接檢測燃燒脂肪量,用於手機的嗅覺感測器面世可以監測從空氣汙染到危險的化學藥品,微軟正在研發可感知使用者當前心情智慧手機技術,谷歌眼鏡InSight新技術可通過衣著進行人物識別。

  除此之外,還有很多與感知相關的技術革新讓我們耳目一新:比如,牙齒感測器實時監控口腔活動及飲食狀況,嬰兒穿戴裝置可用大資料去養育寶寶,Intel正研發3D筆記本攝像頭可追蹤眼球讀懂情緒,日本公司開發新型可監控使用者心率的紡織材料,業界正在嘗試將生物測定技術引入支付領域等。

  其實,這些感知被逐漸捕獲的過程就是就世界被資料化的過程,一旦世界被完全資料化了,那麼世界的本質也就是資訊了。

  就像一句名言所說,“人類以前延續的是文明,現在傳承的是資訊。”

  大資料的實踐

  網際網路的大資料

  網際網路上的資料每年增長50%,每兩年便將翻一番,而目前世界上90%以上的資料是最近幾年才產生的。據IDC預測,到2020年全球將總共擁有35ZB的資料量。網際網路是大資料發展的前哨陣地,隨著WEB2.0時代的發展,人們似乎都習慣了將自己的生活通過網路進行資料化,方便分享以及記錄並回憶。

  網際網路上的大資料很難清晰的界定分類界限,我們先看看BAT的大資料:

  百度擁有兩種型別的大資料:使用者搜尋表徵的需求資料;爬蟲和阿拉丁獲取的公共web資料。搜尋巨頭百度圍繞資料而生。它對網頁資料的爬取、網頁內容的組織和解析,通過語義分析對搜尋需求的精準理解進而從海量資料中找準結果,以及精準的搜尋引擎關鍵字廣告,實質上就是一個資料的獲取、組織、分析和挖掘的過程。搜尋引擎在大資料時代面臨的挑戰有:更多的暗網資料;更多的WEB化但是沒有結構化的資料;更多的WEB化、結構化但是封閉的資料。

  阿里巴巴擁有交易資料和信用資料。這兩種資料更容易變現,挖掘出商業價值。除此之外阿里巴巴還通過投資等方式掌握了部分社交資料、移動資料。如微博和高德。

  騰訊擁有使用者關係資料和基於此產生的社交資料。這些資料可以分析人們的生活和行為,從裡面挖掘出政治、社會、文化、商業、健康等領域的資訊,甚至預測未來。

  在資訊科技更為發達的美國,除了行業知名的類似Google,Facebook外,已經湧現了很多大資料型別的公司,它們專門經營資料產品,比如:

  Metamarkets:這家公司對Twitter、支付、簽到和一些與網際網路相關的問題進行了分析,為客戶提供了很好的資料分析支援。

  Tableau:他們的精力主要集中於將海量資料以視覺化的方式展現出來。Tableau為數字媒體提供了一個新的展示資料的方式。他們提供了一個免費工具,任何人在沒有程式設計知識背景的情況下都能製造出資料專用圖表。這個軟體還能對資料進行分析,並提供有價值的建議。

  ParAccel:他們向美國執法機構提供了資料分析,比如對15000個有犯罪前科的人進行跟蹤,從而向執法機構提供了參考性較高的犯罪預測。他們是犯罪的預言者。

  QlikTech:QlikTech旗下的Qlikview是一個商業智慧領域的自主服務工具,能夠應用於科學研究和藝術等領域。為了幫助開發者對這些資料進行分析,QlikTech提供了對原始資料進行視覺化處理等功能的工具。

  GoodData:GoodData希望幫助客戶從資料中挖掘財富。這家創業公司主要面向商業使用者和IT企業高管,提供資料儲存、效能報告、資料分析等工具。

  TellApart:TellApart和電商公司進行合作,他們會根據使用者的瀏覽行為等資料進行分析,通過鎖定潛在買家方式提高電商企業的收入。

  DataSift:DataSift主要收集並分析社交網路媒體上的資料,並幫助品牌公司掌握突發新聞的輿論點,並制定有針對性的營銷方案。這家公司還和Twitter有合作協議,使得自己變成了行業中為數不多可以分析早期tweet的創業公司。

  Datahero:公司的目標是將複雜的資料變得更加簡單明瞭,方便普通人去理解和想象。

  舉了很多例子,這裡簡要歸納一下,在網際網路大資料的典型代表性包括:

  1-使用者行為資料(精準廣告投放、內容推薦、行為習慣和喜好分析、產品優化等)

  2-使用者消費資料(精準營銷、信用記錄分析、活動促銷、理財等)

  3-使用者地理位置資料(O2O推廣,商家推薦,交友推薦等)

  4-網際網路金融資料(P2P,小額貸款,支付,信用,供應鏈金融等)

  5-使用者社交等UGC資料(趨勢分析、流行元素分析、受歡迎程度分析、輿論監控分析、社會問題分析等)

   政府的大資料

  近期,奧巴馬政府宣佈投資2億美元拉動大資料相關產業發展,將“大資料戰略”上升為國家意志。奧巴馬政府將資料定義為“未來的新石油”,並表示一個國家擁有資料的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,對資料的佔有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。

  在國內,政府各個部門都握有構成社會基礎的原始資料,比如,氣象資料,金融資料,信用資料,電力資料,煤氣資料,自來水資料,道路交通資料,客運資料,安全刑事案件資料,住房資料,海關資料,出入境資料,旅遊資料,醫療資料,教育資料,環保資料等等。這些資料在每個政府部門裡面看起來是單一的,靜態的。但是,如果政府可以將這些資料關聯起來,並對這些資料進行有效的關聯分析和統一管理,這些資料必定將獲得新生,其價值是無法估量的。

  具體來說,現在城市都在走向智慧和智慧,比如,智慧電網、智慧交通、智慧醫療、智慧環保、智慧城市,這些都依託於大資料,可以說大資料是智慧的核心能源。從國內整體投資規模來看,到2012年底全國開建智慧城市的城市數超過180個,通訊網路和資料平臺等基礎設施建設投資規模接近5000億元。“十二五”期間智慧城市建設拉動的裝置投資規模將達1萬億元人民幣。大資料為智慧城市的各個領域提供決策支援。在城市規劃方面,通過對城市地理、氣象等自然資訊和經濟、社會、文化、人口等人文社會資訊的挖掘,可以為城市規劃提供決策,強化城市管理服務的科學性和前瞻性。在交通管理方面,通過對道路交通訊息的實時挖掘,能有效緩解交通擁堵,並快速響應突發狀況,為城市交通的良性運轉提供科學的決策依據。在輿情監控方面,通過網路關鍵詞搜尋及語義智慧分析,能提高輿情分析的及時性、全面性,全面掌握社情民意,提高公共服務能力,應對網路突發的公共事件,打擊違法犯罪。在安防與防災領域,通過大資料的挖掘,可以及時發現人為或自然災害、恐怖事件,提高應急處理能力和安全防範能力。

  另外,作為國家的管理者,政府應該有勇氣將手中的資料逐步開放,供給更多有能力的機構組織或個人來分析並加以利用,以加速造福人類。比如,美國政府就籌建了一個data.gov網站,這是奧巴馬任期內的一個重要舉措:要求政府公開透明,而核心就是實現政府機構的資料公開。截止目前,已經開放了有91054 個datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies;87 galleries;295 Government APIs。

   企業的大資料

  企業的CXO們最關注的還是報表曲線的背後能有怎樣的資訊,他該做怎樣的決策,其實這一切都需要通過資料來傳遞和支撐。在理想的世界中,大資料是巨大的槓桿,可以改變公司的影響力,帶來競爭差異、節省金錢、增加利潤、愉悅買家、獎賞忠誠使用者、將潛在客戶轉化為客戶、增加吸引力、打敗競爭對手、開拓使用者群並創造市場。

  那麼,哪些傳統企業最需要大資料服務呢?拋磚引玉,先舉幾個例子:1) 對大量消費者提供產品或服務的企業(精準營銷);2) 做小而美模式的中長尾企業(服務轉型);3) 面臨網際網路壓力之下必須轉型的傳統企業(生死存亡)。

  對於企業的大資料,還有一種預測:隨著資料逐漸成為企業的一種資產,資料產業會向傳統企業的供應鏈模式發展,最終形成“資料供應鏈”。這裡尤其有兩個明顯的現象:1) 外部資料的重要性日益超過內部資料。在互聯互通的網際網路時代,單一企業的內部資料與整個網際網路資料比較起來只是滄海一粟;2) 能提供包括資料供應、資料整合與加工、資料應用等多環節服務的公司會有明顯的綜合競爭優勢。

  對於提供大資料服務的企業來說,他們等待的是合作機會,就像微軟史密斯說的:“給我提供一些資料,我就能做一些改變。如果給我提供所有資料,我就能拯救世界。”

  然而,一直做企業服務的巨頭將優勢不在,不得不眼看新興網際網路企業加入戰局,開啟殘酷競爭模式。為何會出現這種局面?從 IT 產業的發展來看,第一代 IT 巨頭大多是 ToB 的,比如 IBM、Microsoft、Oracle、SAP、HP這類傳統 IT 企業;第二代 IT 巨頭大多是ToC 的,比如 Yahoo、Google、Amazon、Facebook 這類網際網路企業。大資料到來前,這兩類公司彼此之間基本是井水不犯河水;但在當前這個大資料時代,這兩類公司已經開始直接競爭。比如 Amazon 已經開始提供雲模式的資料倉儲服務,直接搶佔 IBM、Oracle 的市場。這個現象出現的本質原因是:在網際網路巨頭的帶動下,傳統 IT 巨頭的客戶普遍開始從事電子商務業務,正是由於客戶進入了網際網路,所以傳統 IT 巨頭們不情願地被拖入了網際網路領域。如果他們不進入網際網路,他們業務必將萎縮。在進入網際網路後,他們又必須將雲技術,大資料等網際網路最具有優勢的技術通過封裝打造成自己的產品再提供給企業。

  以IBM舉例,上一個十年,他們拋棄了PC,成功轉向了軟體和服務,而這次將遠離服務與諮詢,更多地專注於因大資料分析軟體而帶來的全新業務增長點。IBM執行總裁羅睿蘭認為,“資料將成為一切行業當中決定勝負的根本因素,最終資料將成為人類至關重要的自然資源。”IBM積極的提出了“大資料平臺”架構。該平臺的四大核心能力包括Hadoop系統、流計算(StreamComputing)、資料倉儲(Data Warehouse)和資訊整合與治理(Information Integration and Governance)

  另外一家亟待通過雲和大資料戰略而復甦的巨頭公司HP也推出了自己的產品:HAVEn,一個可以自由擴充套件伸縮的大資料解決方案。這個解決方案由HP Autonomy、HP Vertica、HP ArcSight 和惠普運營管理(HP OperationsManagement)四大技術組成。還支援Hadoop這樣通用的技術。HAVEn不是一個軟體平臺,而是一個生態環境。四大組成部分滿足不同的應用場景需要,Autonomy解決音視訊識別的重要解決方案;Vertica解決資料處理的速度和效率的方案;ArcSight解決機器的記錄資訊處理,幫助企業獲得更高安全級別的管理;運營管理解決的不僅僅是外部資料的處理,而是包括了IT基礎設施產生的資料。

   個人的大資料這個概念

  個人的大資料概念很少有人提及,簡單來說,就是與個人相關聯的各種有價值資料資訊被有效採集後,可由本人授權提供第三方進行處理和使用,並獲得第三方提供的資料服務。

  舉個例子來說明會更清晰一些:

  未來,每個使用者可以在網際網路上註冊個人的資料中心,以儲存個人的大資料資訊。使用者可確定哪些個人資料可被採集,並通過可穿戴裝置或植入晶片等感知技術來採集捕獲個人的大資料,比如,牙齒監控資料,心率資料,體溫資料,視力資料,記憶能力,地理位置資訊,社會關係資料,運動資料,飲食資料,購物資料等等。使用者可以將其中的牙齒監測資料授權給XX牙科診所使用,由他們監控和使用這些資料,進而為使用者制定有效的牙齒防治和維護計劃;也可以將個人的運動資料授權提供給某運動健身機構,由他們監測自己的身體運動機能,並有針對的制定和調整個人的運動計劃;還可以將個人的消費資料授權給金融理財機構,由他們幫你制定合理的理財計劃並對收益進行預測。當然,其中有一部分個人資料是無需個人授權即可提供給國家相關部門進行實時監控的,比如罪案預防監控中心可以實時的監控本地區每個人的情緒和心理狀態,以預防自殺和犯罪的發生。

  以個人為中心的大資料有這麼一些特性:

  1、資料僅留存在個人中心,其它第三方機構只被授權使用(資料有一定的使用期限),且必須接受用後即焚的監管。

  2、採集個人資料應該明確分類,除了國家立法明確要求接受監控的資料外,其它型別資料都由使用者自己決定是否被採集。

  3、資料的使用將只能由使用者進行授權,資料中心可幫助監控個人資料的整個生命週期。

  展望過於美好,也許實現個人資料中心將遙遙無期,也許這還不是解決個人資料隱私的最好方法,也許業界對大資料的無限渴求會阻止資料個人中心的實現,但是隨著資料越來越多,在缺乏監管之後,必然會有一場激烈的博弈:到底是資料重要還是隱私重要;是以商業為中心還是以個人為中心。

相關文章