掘金大資料

小旋風柴進發表於2017-04-03
0.jpg

無論是否出於你的意願,資料正在每天為你做著人生筆記:你去了哪裡?看到了什麼?做了什麼?你的性格喜好?與誰聯絡?心情如何?……這些通通可以從你的網路瀏覽記錄、交易記錄、手機通話記錄、聯通視訊記錄、收發郵件記錄、社交網路記錄等等當中獲得,你在網路上的每一個“足跡”都會以資料的形式被記錄並儲存下來,它們精準及時、事無鉅細。而藉助於這些資料,就可以拼出一個比你自己更瞭解的“你”。

這樣由一個個資料描繪出的“你”,有何價值?

“鬼才”製片查理·布洛克(Charlie Brooker)推出的英國“神劇”《黑鏡》(Black Mirror)中,出現了一款功能極其強大的“大資料+雲端計算”產品——“再造人”,一個連思維人格都可以和因車禍而早逝的Ash“一模一樣”的機器人。

通過對Ash生前留在網際網路世界的資料分析挖掘、統計比較和重新組織,進而發現規律、構建模型,最終實現準確“預測”,“機器人Ash”就可以像“真正Ash”那樣與活著的人進行對話和對事物做出反應甚至進行學習。

大資料(Big Data)帶來的可能性,當然不會僅僅只是製造一個高階機器人那麼簡單,否則也不會使得全世界都在為之痴迷和瘋狂:它被認為是人類文明第三次浪潮的主角,將改變人類的思考模式、生活習慣和商業法則,被認為將引發社會發展的深刻變革,被美國定位為未來最重要的國家戰略之一,是未來大國博弈的決勝關鍵……

現在,這一切正開始變為真金白銀的生意。Amazon和Facebook用它賣出了更多的廣告;Netflix用它創造了《紙牌屋》的收視奇蹟;ZARA用它實現了比LV還高的利潤率;奧巴馬用它贏得了總統選舉,但又為因它而起的“稜鏡門”事件而焦頭爛額……

當然,世界對於“大資料所帶來的機遇是否被過分炒作”的質疑也從未停歇。在剛剛結束的夏季達沃斯上,一場主題為“大資料還是大忽悠”的辯論異常激烈。

辯論前對現場觀眾的調查顯示,“大資料就是大忽悠”(正方)稍占上風。然而,辯論結束,“大資料不是大忽悠”(反方)成功逆轉。反方“辯手”北京大學光華管理學院新媒體營銷研究中心副主任蘇萌教授的一段話贏得了觀眾手中的選票:15年前,人們認為網際網路存在泡沫,但事實證明其並沒有被高估;5年以前,人們又都認為電子商務被誇大,但如今看來這也是錯誤的結論。新事物的發展需要泡沫,這樣才能吸引更多的資金和人才,沉澱下來的才是真正寶貴的東西。

資料大爆炸

你可能並不一定知曉下面這些數字,但你也一定會感受到“資料”正在呈幾何基數的爆炸性增長,因為10億臺電腦、40億部手機、無數的網際網路終端……正在使得我們生活的世界高速數字化,“資訊爆炸”早已從抽象的概念變為現實的描述。

從出現文字記錄到2003年,人類總共創造出的資料量只相當於現在全世界兩天創造出的資料量;在如此大的基數之上,全球的資料量仍然每18個月就會翻一番;預計到2020年,全球資料規模會達到今天的44倍;如今人們在一天之內上傳的照片數量就相當於柯達發明膠捲之後拍攝的所有影像的總和……

就在10年前,1.44M的3.5寸盤還是我們裝機的必備;幾年前,體積不大但容量數百M的移動儲存還曾讓人們興奮不已;而現在,GB級別的小U盤和TB級別的行動硬碟早已是普通使用者的尋常之物,企業級應用則動輒就要躍升至PB、EB級別。(編者注:資料儲存單位由小到大依次為Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,後者依次為前者的1024倍。)

資料分析並不是一個新概念,也有人會因此對於大資料不以為然,認為這只不過是新瓶老酒而已。但是,量變引發質變傳統資料所採用的獲取、儲存、分析和解釋的方法和技術,早已無法應對現在的資料規模、產生速度和複雜程度了。

“我們今天講的大資料,和過去的資料探勘有四個方面比較明顯的差異。”中國工程院院士倪光南告訴《中國經濟週刊》,“一是資料量大,常為PB量級,而且每年有40%~50%的增幅;二是資料特徵複雜,大資料時代我們主要面臨的是非結構化資訊,比如文字、圖形、音訊、視訊等,而且大多是實時資訊;三是資料來源主要是社會日常運作和各種服務中實時產生的,如線上搜尋、社交媒體、行動電話、電子商務交易、遙感遙測資料等等,而過去主要是企業交易資料;四是應用領域主要是社會科學範疇,如在經濟學和社會學上的應用,而過去主要是自然科學範疇的應用。”

而資料之所以變“大”的最重要的推手便是雲端計算。從技術上講,大資料是根植於雲端計算的,它是雲端計算的重要延伸,兩者相輔相成。資料被搬到了“雲”上之後,更容易被收集和獲得,過去那種各自分割儲存的資料往往不具備太大價值,只有不同領域打通共享,資料金礦才能呈現眼前。而如此龐大的資料也只有依靠雲端計算強大的處理能力,才能夠“淘盡黃沙始得金”。

從概念到生意

儘管在2012年,大資料才逐漸被中國產業界接受和關注,但業界普遍認為2013年將成為中國“大資料元年”,未來三年大資料市場都將呈爆發性增長態勢。賽迪顧問統計資料顯示,2012年我國大資料市場規模為4.5億元,同比增長40.6%;而預計到2016年,大資料行業規模將突破百億元。

和以往一樣,美國依然被視為風向標。實際上,大資料已經成為華爾街和矽谷最炙手可熱的追逐物件。今年5月兩隻剛剛掛牌的大資料概念股Tableau和Marketo都受到了市場極大追捧,Tableau首日漲幅63.7%,募資2.542億美元,成為今年以來美國股市最大一筆科技公司的IPO專案;Marketo股價首日也飆升了78%。

國內的A股市場也隨之“激動”了一陣子,如拓爾思、美亞柏科、華宇軟體、科華恆盛、浪潮資訊、天璣科技等公司近期走勢強勁,拉出了多個漲停板。

目前,大資料市場中的商業機會主要有三大方向:一是提供“硬體+軟體+資料”的整體解決方案,它以平臺性為特徵,提供基礎服務,這個市場主要競爭者有國外的IBM、微軟、惠普、EMC等,國內的有曙光、浪潮、華為、聯想等。

二是掌握豐富大資料資源的網際網路公司,國外以Google、Facebook、Amazon為代表,國內以阿里巴巴、百度和騰訊等為代表,這些公司掌握海量使用者資料,通過資料探勘形成產品和服務,如精準營銷和個性化廣告推介,同時也提供“資料租借”服務,為其他公司提供決策輔助。

“這個兩個方向並非競爭關係,而是合作關係。因為兩者是大資料產業鏈上的不同分工,前者負責後端平臺,是系統供應商,而後者則負責前端的應用。” 曙光公司總裁歷軍告訴《中國經濟週刊》。

三是會出現一大批分工細緻的第三方大資料公司,他們雖然沒有第一類公司的硬體優勢,也不具第二類公司的資料資源優勢,但憑藉某些細分領域的技術優勢和專業性,也會在產業鏈中爭到一杯羹,如專注電子政務和智慧城市的拓爾思就是例子。

行行都愛大資料

傑夫·哈默巴赫(Jeff Hammerbacher)是一位哈佛數學天才,2006年,他離開華爾街投行貝爾斯登(Bear Steams)加入Facebook,成為Facebook最早搭建資料分析模型的人。通過對海量使用者資料分析挖掘,他完成了Facebook CEO祖克伯交給他的使命:弄清楚使用者點選廣告的動機和方式,這也為Facebook開啟了高速盈利的閥門。

2008年,傑夫離開Facebook開始自己創業。談到原因,他說了一句非常著名的話:“我們這一代人中最聰明的那些都在想著怎麼讓更多人點選廣告,這簡直糟糕透了。”現在,傑夫的公司正在幫助醫生們找出“癌症患者都有哪些共同基因”,以提示有類似基因的人提前預防和治療。

《大資料時代》作者維克托·邁爾·舍恩伯格向《中國經濟週刊》介紹說,“蘋果教父”史蒂夫·賈伯斯的癌症實際上非常嚴重,但他比其他得癌症的人活得時間長,就是因為賈伯斯有DNA排序的資訊,這使得他有定製化、個體化的專門服務的治療。

確實,如果我們把大資料的價值僅僅理解為可以更精準地向使用者推送廣告就太為狹隘了。

舍恩伯格告訴《中國經濟週刊》,小到“以最合適價格和時機購買衣服”,大到“重要的經濟決策中如何提高經濟效益”,大資料都會告訴你如何做。

“與人腦總是喜歡問‘為什麼’相比,大資料會直接告訴你‘是什麼’。”舍恩伯格舉例說,冬天,人們總是被告知要記得戴帽子和手套,否則就會著涼,這是人腦的思維。但大資料分析會告訴你,著涼可能是病毒的問題,跟戴不戴手套和帽子沒有很直接關係。再如,到餐館吃飯,第二天生病了,人腦的思維馬上會用可能吃壞了東西這樣的理由來解釋,但從資料統計學角度,生病還有可能與有細菌的手握手導致的。“如果有了大資料,就可以讓腦子慢下來,不用去推測原因,直接回答結果。”

舍恩伯格再以谷歌翻譯舉例:谷歌依靠網際網路做統計方面的工作,並耗資了數十億,推出谷歌翻譯。“谷歌不需要知道為什麼一個詞要翻譯成另外的詞,它只知道翻譯什麼。”

大資料的滲透力極強,從本質上講,各行各業都已經在資料化了,比如電信業正在變成電信資料業,金融業變成金融資料業,醫療業也變成醫療資料業……這也就意味著,大資料探勘將成為各行各業的必修課。

根據全球最具權威的IT研究與諮詢公司Gartner統計,2012年大資料帶動了全球280億美元的IT支出,2013年帶動的規模有望增至340億美元,到2016年全球在大資料上的總花費將達到2320億美元。

“中國一線的大型城市,僅僅健康檔案的資料,一年就有5PB之多;一個智慧城市的資料一個季度就是200PB之多,這在過去很難想象。這些資料如果是無序的就是垃圾。我們需要把這堆垃圾變得井井有條,從中去尋找金礦。”歷軍說。

“2012年底,中國共計發行了37億張卡,是全球的第一大發卡國家,每天大概有500億~600億交易通過600萬張銀行卡交易,這是一個非常龐大的資料量。”中國銀聯副總裁柴洪峰告訴《中國經濟週刊》,對於銀聯來說,這些資料已經在變成非常重要的資產,而提升大資料處理的能力將會成為銀聯,甚至整個國家的核心競爭力。

全國農信銀資金清算中心執行保障部總經理王永剛告訴《中國經濟週刊》:“阿里金融的小額貸款幾個小時就發放,而我們作為一個全力支援小微企業和個人金融服務的農村金融機構,最快也得7到10天。他們靠的是什麼?就是利用開放平臺的渠道的優勢,還有一個就是資料探勘的競爭性。他們大大降低了這種信貸、增信的成本和效率。我們銀行不缺資料,但缺少把資料轉為智慧,沒有充分挖掘資料的商業價值。”

“10年前我們還只是溫飽社會,但今天已步入小康社會,未來大資料會有怎麼樣的發展,可能會突破我們的想象。比如,現在正在發展的移動支付,就需要我們和運營商的資料合作才能為使用者提供更好的服務。未來,醫療、教育、養老服務都有可能因為大資料而得到升級和改善。”柴洪峰說。

狂歡下的隱憂

今年6月,30歲的愛德華·斯諾登(Edward Snowden)一個人幾乎攪動了整個世界,這位美國防務承包商僱員、前CIA特工因為曝光了美國的“稜鏡”計劃而成為全球媒體的焦點。原來,美國國家安全域性多年來一直通過直接接入蘋果、微軟、谷歌、雅虎等九大網際網路公司的中心伺服器,獲取大量使用者的郵件、聊天記錄、視訊及登入資訊,中國內地和香港從2009年開始也在監控之列。

儘管美國政府稱已經有“數十起”可能的恐怖攻擊因為“稜鏡”而流產,但是這件事還是激起了全球大討論:國家安全和個人隱私的微妙邊界在哪裡?而今年的“3·15”,央視等媒體也針對許多網際網路公司通過Cookies“竊取”使用者資訊的行為進行了曝光,同樣引發了大資料收集和分享與個人隱私保護之間的爭論。不少業內人士憂慮,這會成為大資料產業發展的巨大障礙。

大資料畢竟是新興事物,相關的政策法規即使在美國也離完善差距甚遠。倪光南認為:“我國大資料產業也同樣面臨著人才匱乏、資料開放程度較低、相關法律法規不完善等問題。”

“大資料有可能是大機會、大發展、大創新,也可能是大危機、大破壞、大淘汰。雲端計算和大資料將註定帶來一次革命。”歷軍說。

就像在電影《點球成金》中,希望通過資料化思考代替經驗思考的棒球隊總經理所面臨的最大困難並不是資料分析技術難題和資金投入,而是整個團隊的不認同,因為經驗豐富的教練和自認為慧眼識珠的球探,不認為一個數學天才可以用電腦代替他們多年修煉得來的經驗和直覺。在我們的政府決策和商業判斷中也是如此,能不能轉變觀念,才是大資料能否發揮實效的關鍵。

“如果一個公司有資料,但沒有資料的文化,它是很難開展讓更多人用資料的,所以大資料實際是一種態度。”阿里巴巴集團資料委員會首任會長車品覺告訴《中國經濟週刊》。

目前在中國,“大資料”尚未直接以專有名詞被國家提出。但是,工業和資訊化部發布的物聯網“十二五”規劃中,把資訊處理技術作為四項關鍵技術創新工程之一提出來,其中包括海量資料儲存、資料探勘、影像視訊智慧分析,這都是“大資料”的重要組成部分。不過,已經有機構倡議將大資料像美國一樣上升為國家戰略。

“中國的雲端計算和大資料產業是國內資訊產業最有可能實現彎道超車的產業,我們的資料資源極為豐富,技術研究上我們已經實現了緊跟國際前沿,國內已有一些企業抓住這個機遇,擴充套件業務,進行轉型,希望他們能實現跨越式發展。”倪光南說,但他也表示最大的瓶頸還在於“應用相對滯後”,但他相信發展前景會非常廣闊。


原文釋出時間為:2013-10-06


本文來自雲棲社群合作伙伴“大資料文摘”,瞭解相關資訊可以關注“BigDataDigest”微信公眾號


相關文章