什麼叫大資料?

“大資料”是“資料化”趨勢下的必然產物!資料化最核心的理念是:“一切都被記錄,一切都被數字化”,它帶來了兩個重大的變化:一是資料量的爆炸性劇增,最近2年所產生的資料量等同於2010年以前整個人類文明產生的資料量總和;二是資料來源的極大豐富,形成了多源異構的資料形態,其中非結構化資料(包括語音、視訊、影像等)所佔比例逐年增大。

牛津大學網際網路研究所維克托·邁爾-舍恩伯格教授指出,“大資料”所代表的是當今社會所獨有的一種新型的能力——以一種前所未有的方式,通過對海量資料進行分析,獲得有巨大價值的產品和服務,或深刻的洞見①。

這種“前所未有的”巨大價值和深刻洞見,並不僅僅來自於單一資料集量上的變化,而且是不同領域資料集之間深度的交叉關聯,可稱之為“跨域關聯”。譬如微博上的內容和社交關係,Flickr上的圖片共享,手機通訊關係,淘寶上的購物記錄等資料通過同一個使用者關聯起來;又如移動手機定位的移動軌跡,車載GPS的移動資料,街旁上的簽到資料,順豐物流的遞送資料,智慧城市中的文字描述等資料通過同一個地點關聯起來。跨域關聯是資料量增大後從量變到質變的飛躍,是大資料巨大價值的基礎。

大資料會給整個社會帶來從生活到思維上革命性的變化:企業和政府的管理人員在進行決策的時候,會出現從“經驗即決策”到“資料輔助決策”再到“資料即決策”的變化;人們所接受的服務,將以數字化和個性化的方式呈現,藉助3D列印技術和生物基因工程,零售業和醫療業亦將實現數字化和個性化的服務;以小規模實驗、定性或半定量分析為主要手段的科學分支,如社會學、心理學、管理學等,將會向大規模定量化資料分析轉型;將會出現資料運營商和資料市場,以資料和資料產品為物件,通過加工和交易資料獲取商業價值;人類將在哲學層面上重新思考諸如“物質和資訊誰更基礎”“生命的本質是什麼”“生命存在的最終形態是什麼”等本體論問題……

綜上,大資料不是資料量的簡單刻畫,也不是特定演算法、技術或商業模式上的發展,而是從資料量、資料形態和資料分析處理方式,到理念和形態上重大變革的總和——大資料是基於多源異構、跨域關聯的海量資料分析所產生的決策流程、商業模式、科學正規化、生活方式和觀念形態上的顛覆性變化的總和。

大資料的戰略地位

大資料被認為是繼資訊化和網際網路後整個資訊革命的又一次高峰。雲端計算和大資料共同引領以資料為材料,計算為能源的又一次生產力的大解放,甚至可以與以蒸汽機的使用和電氣的使用為代表的第一次工業革命和第二次工業革命相媲美。

與提升國家競爭力及國民幸福程度密切相關的重大戰略都與大資料的分析和利用息息相關,包括與國家安全社會穩定相關的尖端武器製造與效能模擬實驗,群體事件和謠言的預警和干預;與國家科技能力相關的等離子即高能粒子實驗分析,奈米材料及生物基因工程;與國民經濟繁榮相關的經濟金融態勢感知與失穩預測,精準營銷與智慧物流倉儲;與環境問題相關的全球氣候及生態系統的分析,區域性天氣及空氣質量預測;與醫療衛生相關的個性化健康監護及醫療方案,大規模流行病趨勢預測和防控策略;與人民幸福生活相關的個性化保險理財方案,智慧交通系統等等。資料儲備和資料分析能力將成為未來新型國家最重要的核心戰略能力。

2012年3月29日,美國政府宣佈了“大資料研究和發展倡議”,來推進從大量的、複雜的資料集合中獲取知識和洞見的能力。該倡議涉及聯邦政府的6個部門(國家科學基金委、國家衛生研究院、能源部、國防部、國防部高階研究計劃局和地質勘探局)。這些部門將投資總共超過兩億美元,來大力推動和改善與大資料相關的收集、組織和分析工具及技術。

2012年5月,我國召開第424次香山科學會議,這是我國第一個以大資料為主題的重大科學工作會議。中國計算機學會、通訊學會等於2012年分別成立了“大資料專家委員會”。2012年9月13日,北京航空航天大學聯合英國愛丁堡大學、英國利茲大學、香港科技大學、美國賓夕法尼亞大學、美國亞利桑那州立大學、加拿大渥太華大學等共同組建大資料科學與工程國際研究中心。

2012年12月13日,在“中關村大資料日”活動會上,由寬頻資本、百度、用友、中國聯通、聯想集團、北京大學、北京航空航天大學、阿里巴巴、騰訊等企業、高校共同發起成立了大資料產業聯盟,並在中關村雲基地揭牌成立大資料實驗室,該實驗室以大資料產業孵化基金形態成立,致力於推動學術界大資料創新科技成果產業化以及為相關產業引導注入大資料科技元素。

自然科學基金委於2013年3月5日~7日,在上海同濟大學舉辦了第89屆“雙清”論壇,論壇的主題是“大資料技術與應用中的挑戰性科學問題”,與會的有近十名院士。2013年6月30日,中國資訊化百人會以“大資料:挑戰與機遇”為主題,在上海召開第四次專題研討會。

大資料商業革命

傳統的商務智慧已經應用了資料倉儲和資料探勘的技術,對企業自身的資料進行儲存、清洗、索引和分析,並能夠提供包括客戶價值評價、客戶滿意度評價、服務質量評價、營銷效果評價、市場需求評估等各種基於簡單統計和關聯挖掘的報表——這些統計結果對於企業自身評估和決策起到了重要的作用。

在商務智慧時代積累起來的和資料打交道的經驗既是大資料新商業模式技術和理念的基礎,又有可能束縛大資料商業革命,因為有經驗的商務智慧人士會不自覺地把大資料分析庸俗化,認為只是傳統商務智慧針對更大規模資料集的一種平凡推廣。

大資料商業模式也可以粗略地分為1.0版本,2.0版本和3.0版本。

大資料1.0追求從資料到分析,從分析到更多更好的資料,再到更深入分析這樣的正向迴圈。它是指企業自身的產品和服務產生了大量的資料,通過對這些資料進行深入的挖掘分析,改進自身業務,改進後的業務吸引更多使用者或客戶,產生更大量的資料,形成正向的迴圈。

亞馬遜是一個典型的例子,他們利用以“基於商品的協同過濾”為主要代表的一系列推薦演算法②,幫助使用者找到他們可能喜歡的商品。百分點科技從事類似的資料分析,但他們不是分析自己的銷售資料,而是整合了五百多家電子商務網站和一百多家資訊網站的資料,從使用者的瀏覽、收藏、點選行為中猜測使用者意圖,推薦使用者感興趣的商品和資訊③。

這些精準的個性化服務的背後,是非常複雜的演算法和實時大資料處理能力④。個性化推薦演算法大大提高了使用者的黏度和企業的銷售額,從而產生了更多有價值的資料,這些資料又幫助亞馬遜和百分點把分析做得更深入,進一步提高自身或客戶的訪問和銷售量,產生更多高質量的資料。

大資料2.0強調的是資料的外部性。它是指企業用自身業務產生的資料,去解決主營業務以外的其他問題,獲得重大的價值;或者引入非企業自身業務的外部資料,來解決企業自己遇到的問題。谷歌(Google)曾利用網頁搜尋詞的記錄,來預測流感爆發後隨時間變化的新增病例數以及實時電價⑤。

顯然,預測流感趨勢和實時電價這些需求並不包含在記錄網頁搜尋詞的初衷中。ZestFinance有一個口號,就是一切資料都是信用資料,實際上,他們大量採集使用者在社會媒體上留下的資料,從這些資料中對使用者的信用進行判斷,特別地,預測使用者拖延還貸的概率。

ZestFinance通過這種分析,能夠在低於行業平均拖延還貸率的條件下,進行更快更低成本的貸款發放。顯然,使用者在社交媒體上產生的資料,並不是ZestFinance自身產生的,但是一樣可以服務於ZestFinance的業務。同樣,自身業務產生的資料可以用來服務於其他行業,產生重大價值。譬如淘寶的銷售記錄可以用來估計消費價格指數(CPI),手機移動軌跡資料可以用於交通預報和交通規劃,等等。

大資料3.0是一個尚在探索中的商業形態。它首先要求政府和行業,對資料質量、價值、權益、隱私、安全等產生充分認識,出臺量化與保障措施。在此基礎上,資料運營商出現,提供整合資料和儲存、計算的平臺。在此基礎上,形成了以加工粗資料和已有資料產品,產生新的資料產品為主要活動的資料客(Dacker)。

個人、團隊和企業通過資料API介面或其他方式付費使用資料產品,資料客、運營商和被加工原料所有者共同分享資料產品的利益。資料市場也可能應運而生,資料和資料產品有可能像今天淘寶集市上的商品被售賣交換。於是,一種以資料/資料產品為輸入,資料/資料產品為輸出的新商業模式誕生,這種模式不同於2B(to business)和2C(to customer)的模式——譬如一款精確位置告知實時空氣質量的API介面(應用程式介面),既可能被企業和政府使用,也可能被個人使用。為了區分,我們稱這種模式為2D(to data)的商業模式⑥。新商業模式的直接後果,就是促進學術團體、企業和政府通過大量異質資料和資料產品產生科學、社會、經濟等方面的新價值。

大資料科學革命

科學界實際上比產業界更早意識到了大資料的巨大影響,英國的《自然》雜誌在2008年9月就推出了名為“大資料”的封面專欄,講述了資料在數學、物理、生物、工程及社會經濟等多學科扮演的愈加重要的角色。越來越多的資料本身,在以資料為準繩的研究理念指導以及愈發強大的計算能力支撐下,正在驅動一次科學研究方法論上的革命。

以前基於實驗室小規模控制實驗的半定量甚至以定性為主的學科分支將走向基於大規模非控制資料分析的定量科學,其中社會學、心理學和管理學首當其衝。通過資料分析,我們可以在數千萬甚至上億樣本的規模下研究宗教問題、亞文化問題、資訊傳播軌跡、社會流動性問題等,而這在以前的社會科學中是絕對不可想象的。

首先,資料給我們提供了一個解釋現象的新穎視角。我們可能都記得道金斯在其飽受爭議的名著《自私的基因》中講很多自然和社會現象都歸結於一種將自己基因在生物界中最大可能傳播的內在驅動力。這類演化生物學的假設很難再高等生命中獲得直接的驗證——難道你會承認一段段刻骨銘心的愛情背後僅僅是出於繁殖的目的嗎?最近的一項研究另闢蹊徑⑦,科學家分析了320萬手機使用者4.89億條簡訊和19.5億條通話記錄,根據通訊頻繁程度,找出了每個人的第一好友、第二好友等。

統計顯示,男性和女性從青春期直到四十多歲,第一好友往往都是一個同齡異性,女性覺醒更早,對異性的高關注度保持的時間比男性長——這個第一好友,不言而喻,就是所愛之人。而到了50歲左右的時間,男性的第一好友往往還是一個同齡的女性(他的太太),第二好友是一個或男或女的20歲左右的年輕人(他的子女),而女性的第一好友往往都是她的子女。這體現了女子很明顯地將自己的社會資本從配偶轉移到了子代。

有趣的是,男性儘管在30多歲的時候表現出對同齡異性特定高關注度的快速下降,但是在進入中老年後對配偶的依賴性遠遠高於女性。這樣的研究當然不能嚴格證明任何演化生物學的假說,但是卻給出了一種研究這類問題的有趣而新穎的視角。

類似地,2010年科學家通過對全英32482個行政區6500萬人口通話關係的研究發現,電話聯絡人多樣性越強的行政區,其經濟社會發展水平也越高,從一個側面證明了社會資本等價於經濟資本⑧。我們最近和印第安納大學合作,通過對8498份菜譜的分析,證明了地理文化因素比氣候因素對於飲食結構的形成作用更大,挑戰了“氣候決定飲食結構”這一廣泛為人們接受的常識。

其次,資料給我們提供了一個繞開理論直接走向應用的新途徑。Google分析了5000萬搜尋詞,從中找到所有和流感傳播趨勢有關的搜尋詞,又通過其中相關性最強的45個詞,利用線性迴歸模型,預測流感的染病人數⑨。

Google的預測非常準確,並且能夠比疾控中心早一週對實時染病情況進行預報。我們最近分析了包括亞馬遜和Netflix在內的4個網站上數百萬使用者對各種商品的評分資料,發現使用者的評分存在明顯的錨定效應⑩,也就是說,使用者在給出一個高分之後,下一次評分也偏高,在給出一個低分之後,下一次評分也偏低。

這和我們常識中看過一部爛片之後下一部片子無論如何都不錯正好相反——我們甚至可以推論,如果你的前任是極品,你的現任恐怕要受前任連累,而不是從中獲益,當然,這還需要大資料科學的驗證。我們進一步的研究顯示,如果去除掉這些心理的偏差,我們對於使用者的評分預測和推薦會變得更加精確。可以看到,Google並沒有給出從搜尋詞到疾病預測之間的某種嚴謹的理論,我們也沒有對人們評分的心理行為給出任何理論解釋,但是通過海量資料分析得到的這些研究結果已經可以應用於實際了。

大資料帶來了很多新的重要的科學問題,其中最重要的是預測。預測問題主要可以分為兩類,一是趨勢預測,二是缺失資訊預測。趨勢預測是指通過事物的一些基本屬性資訊和早期的態勢分析,預測事物發展的軌跡和最終影響力。

譬如通過分析社交網路中註冊一個月的使用者的行為以及這些使用者與其他使用者的互動,預測哪些使用者將來會成為很有影響力的使用者;通過使用者-商品兩部分圖中產品的早期表現,例如一首新歌或一個新歌手上線一週的情況,來預測這首歌或者這個歌手有沒有可能走紅;通過一條資訊早期數小時在微博網路上的傳播情況,來預測這條資訊最終的影響力等等。

缺失資訊預測假設我們觀察到的資訊只是全部真實資訊的一部分,在這個基礎上探討如何利用當前資訊去預測未觀察到得資訊。譬如我們現在通過實驗所知道的蛋白質之間的相關作用關係只是全部關係中很小的一部分,但是實驗驗證費用昂貴,通過預測,預先判斷哪些蛋白質之間可能有相互作用並以此指導實驗,能夠大大節省實驗成本。

又比如,新浪微博上的關注物件推薦是一種典型的缺失資訊預測,因為做出推薦的基本假設是“某甲應該關注某乙,只不過現在還沒有關注”。在可預期的未來,絕大部分深入的大資料應用,都可以轉化為某種預測問題。