“大資料”成為2012年的關鍵詞彙,被認為將會帶來生活、工作與思維的重大變革。谷歌、亞馬遜等網際網路企業在利用大資料方面所做的工作使資料行業看到了新的發展路徑。大資料在教育、醫療、汽車、服務性行業的應用所彰顯的能量使企業、研究者對大資料的未來充滿信心。《連線》雜誌主編克里斯?安德森甚至早在2008年就斷言資料洪流將會帶來理論的終結,科學方法將會過時,其原話是“面對大規模資料,科學家“假設、模型、檢驗”的方法變得過時了”。

技術的變遷在任何行業都是值得歡欣鼓舞的,但不妨在此處借用蘇珊?朗格在《哲學新視野》中的論述表達一點謹慎:

某些觀念有時會以驚人的力量給知識狀況帶來巨大的衝擊。由於這些觀念能一下子解決許多問題,所以,它們似乎有希望解決所有基本問題,澄清所有不明瞭的疑點。每個人都想迅速的抓住它們,作為進入某種新實證科學的法寶,作為可用來建構一個綜合分析體系的概念軸心。這種‘巨集大概念’突然流行起來,一時間把所有東西都擠到了一邊。

蘇珊·朗格認為這是由於“所有敏感而活躍的人都立即致力於對它進行開發這個事實造成的”,這一論述放置在今日對大資料的狂熱崇拜之中也極為恰當,大資料的流行並不意味著其它的理解與思考方式就不再適合存在,正如微軟的Mundie先生所說,“以資料為中心的經濟還處於發展初期,你可以看到它的輪廓,但它的技術上的、基礎結構的、甚至商業模型的影響還沒有被完全理解。”但不可否認的是人們確實將更多的學術興趣轉移到這一領域,而一旦人們能夠以審慎的思路開始清晰的闡述它們,即便一時不能提供完美的解決方案,至少也是能讓人有所獲益的途徑。

人們在談論大資料的美好圖景時當然沒有完全忘記它可能帶來的風險,但擔憂多集中於大資料的後果,如資訊保安,而沒有集中於如何看待大資料本身。本文將就當前尤其國內技術環境下,進入大資料時代所面臨的風險和存在的問題做簡要分析,以希望能釐清概念,澄清一些誤解。

大資料的面臨的風險主要表現在以下幾方面:

一、海量資料的計算速度

零售業巨頭沃爾瑪每小時處理超過一百萬客戶交易,輸入資料庫中的資料預計超過2.5PB(拍位元組,2的50次方)——相當於美國國會圖書館書籍存量的167倍,通訊系統製造商思科預計,到2013年因特網上流動的資料量每年將達到667EB(艾位元組,2的60次方) ,資料增長的速度將持續超過承載其傳送的網路發展速度。

來自淘寶的資料統計顯示,他們一天產生的資料量即可達到甚至超過30TB,這僅僅是一家網際網路公司一日之內的資料量,處理如此體量的資料,首先面臨的就是技術方面的問題。海量的交易資料、互動資料使得大資料在規模和複雜程度上超出了常用技術按照合理的成本和時限抓取、儲存及分析這些資料集的能力。

現在談到大資料,難以避免言必稱美國的傾向,那麼美國究竟如何應對這這方面的問題呢?

美國政府六個部門啟動的大資料研究計劃中,包括:

DARPA的大資料研究專案:多尺度異常檢測專案,旨在解決大規模資料集的異常檢測和特徵化;網路內部威脅計劃,旨在通過分析感測器和其他來源的資訊,進行網路威脅和非常規戰爭行為的自動識別; Machine Reading專案,旨在實現人工智慧的應用和發展學習系統,對自然文字進行知識插入。

NSF的大資料研究內容:從大量、多樣、分散和異構的資料集中提取有用資訊的核心技術;開發一種以統一的理論框架為原則的統計方法和可伸縮的網路模型演算法,以區別適合隨機性網路的方法。

國家人文基金會(NEH)專案包括:分析大資料的變化對人文社會科學的影響,如數字化的書籍和報紙資料庫,從網路搜尋,感測器和手機記錄交易資料。

能源部(DOE)的大資料研究專案包括:機器學習、資料流的實時分析、非線性隨機的資料縮減技術和可擴充套件的統計分析技術。

從這份研究計劃可以看出,絕大多數研究專案都是應對大資料帶來的技術挑戰,目前我們所使用的資料庫技術誕生於上世紀70年代,大資料時代首先需要解決的是整個IT結構的重新架構,提升對不斷增長的海量資料的儲存、處理能力。

筆者最早進入資料分析領域是在1986年,使用的機器是長城,520,小的IBM機器,在完成資料輸入、問卷輸入之後,做一個最簡單的命令操作,需要等三個小時之後才能出結果,我們現在面對大資料時的處理能力,形象化來講就是當年PC機對小資料的處理能力。

這也就是大資料常和雲端計算聯絡在一起的原因,實時的大型資料集分析至少需要使用像MapReduce和Hadoop那樣的分析技術並有數千臺電腦同時工作,因為想做到實時分析,需要在資料庫中空出分析工作空間,控制對資源和資料的訪問,同時不影響生產系統。 在現有的技術條件下談大資料需要充分考慮到硬體設施和分析技術的不足,因為這是前提,這也正是資料中心成為谷歌、亞馬遜最高機密的原因,Facebook的開源硬體計劃得到眾多企業包括國內的騰訊響應的積極響應也是基於這方面的現實需要。

第二、海量資料帶來的風險是處處都是假規律。

“如果只就人類的認識是零星、細小的而言,小之中蘊含著智慧,因為人類的認識更多的是依靠實驗,而不是依靠了解。最大的危險必然是不顧後果的運用區域性知識。”舒馬赫在《小的是美好的》一書中用這段話來表達對核能、農業化學物、運輸技術大規模運用的擔憂,也適用於今日調查行業、企業、研究者對全資料的迷信、忽視抽樣所帶來的風險。

對於海量資料資料的計算能力隨著分散式快取、基於MPP的分散式資料庫、分散式檔案系統、各種NoSQL分散式儲存方案等新技術的普及可以解決,但這只是關於資料處理的第一步(甚至這種處理方式本身都存在很大風險),還並不是最大的風險,大資料最為嚴重的風險存在於資料分析層面。

(一)資料量的增大,會帶來規律的喪失和嚴重失真

維克托·邁爾-舍恩伯格在其著作《大資料的時代》中也指出這一點,“資料量的大幅增加會造成結果的不準確,一些錯誤的資料會混進資料庫,” 此外,大資料的另外一層定義,多樣性,即來源不同的各種資訊混雜在一起會加大資料的混亂程度,統計學者和電腦科學家指出,巨量資料集和細顆粒度的測量會導致出現“錯誤發現”的風險增加。那種認為假設、檢驗、驗證的科學方法已經過時的論調,正是出於面對大資料時的混亂與迷茫,因為無法處理非結構化的海量資料,從中找出確定性的結論,索性擁抱凱文凱利所稱的混亂。這種想法在某些領域是有效地,比如它可以解釋生物的選擇性,東非草原上植物的選擇過程,但是未必能解釋人,解釋事件過程和背後的規律。

大資料意味著更多的資訊,但同時也意味著更多的虛假關係資訊,史丹佛大學Trevor Hastie教授用‘在一堆稻草裡面找一根針’來比喻大資料時代的資料探勘,問題是很多稻草長得像針一樣,‘如何找到一根針’是現在資料探勘的問題上面臨的最大問題,海量資料帶來顯著性檢驗的問題,將使我們很難找到真正的關聯。

我們以一個實際的案例來看一下樣本量不斷增大之後,會出現的問題:

36大資料

上表是關於2006年網路遊戲歷程擴散的迴歸分析,當樣本量是5241個的時候,你會發現用一個簡單的線性迴歸擬合這個資料,年齡、文化程度、收入這三個變數顯著,當我們把樣本量增加到10482個的時候,發現獨生子女和女性開始顯著,增加到20964個的時候,體制外這個變數也開始顯著,當樣本增加到33萬的時候,所有變數都具有顯著性,這意味著世間萬物都是有聯絡的。那麼在這個時候,如果說上億個人呢?樣本大到一定程度的時候,很多結果自然就會變得顯著,會無法進行推論,或者得出虛假的統計學關係。此外,斷裂資料、缺失資料(下文將會進行分析)的存在將會使這種虛假關係隨著資料量的增長而增長,我們將很難再接觸到真相。

事實上,真實的規律是這樣的:

36大資料

這是網路遊戲2006年曆程擴散的結果,實際模型是這樣的,通過這個模型我們可以看到:

  • 1.分文化程度、體制內外不同年齡的人群在遊戲使用上存在顯著差異,可以清晰的看到在2006年網路遊戲呈現出文化程度主導下的創新擴散規律。
  • 2.在高文化程度人群中,開始向34歲-40歲擴散,呈現大幅增長,並形成一個峰值。
  • 3.在低文化程度群體中,比如高中、初中在年輕群體中迅速擴散,形成一個峰值。
  • 4.在2006年,網路遊戲從文化程度的幾個角度開始擴散,年齡不再只是高低之分,而是與文化程度變數綜合形成的效果 。

我們看到網路遊戲這種波浪式的擴散過程,不僅可以找到2006年是誰在使用網路遊戲,也可以用生命週期、家庭週期來解釋原因,而通過對體制內與體制外人群的使用差異分析,又可以展現出工作空間不同所帶來的人的行為差異。當我們把2006年的結果放回網路遊戲的整個擴散歷程中時,所能看到就已經不再是網路遊戲本身,而是新技術帶來的社會變遷過程。

對一個社會現象進行客觀深刻準確的分析,對事物的理解需要資料,但更需要分析思維,在大資料時代,理論並非不重要,而是變得更加重要。我們所指的理論也並非僵化一成不變的固守舊有理論,而是在處理問題的過程中意識到海量資料所帶來的複雜性,堅持分析方法和理論的不斷創新。

(二)抽樣分析+全資料驗證的分析思路

維克托·邁爾·舍恩伯格在介紹大資料時代的資料分析思維轉變時提到過三個觀點,其中之一是:分析所有的資料,而不再僅僅依靠一小部分資料。全資料一時甚囂塵上,企業、研究者以為大資料就是全資料,以至於再談抽樣都似乎帶有保守主義色彩,這種看法無疑是對大資料和抽樣二者都存在偏見和不足,而一個風行的詞彙恰恰對於從事這項活動的人來說意味著什麼才是及其重要的,如果認為大資料就是收集所有樣本的資訊,讓資料自己說話,那麼在方法論上就是狹隘的,而這種狹隘卻因為其閃爍著開放、客觀、全面的光芒而被忽視。

這種觀點面臨的第一個風險就是“全資料”在哪裡?資料量達到何種程度時,可以認為是“全”資料?

這裡也涉及了全資料的第二個問題全(暫且假定我們通過人們在谷歌上輸入搜尋條目就找到了真正意義上的全:谷歌利用搜尋記錄而預測到流感爆發的案例被廣為引用以說明資料自會說話,當人們開始在網上搜尋關於感冒的詞彙表明他感染了流感,建立流感與空間、病毒的關係,能夠成功的預測一場流感) 資料確實能看到變化,通過變化作出“預測”,但無法解釋變化的影響因素,維克托·邁爾·舍恩伯格對此的回答是:我們要相關性,不要因果關係。這並非是這位作者有選擇的選擇,而是放棄抽樣而直接採用大資料的必然。

維克托?邁爾?舍恩伯格認為可以允許不精確而使用大資料的簡單演算法解決問題,而1936年《文學文摘》和蓋洛普在總統選舉預測中的不同表現,至今仍然向我們表明科學、嚴謹抽樣的重要性。《文學文摘》依靠紙媒時代巨大的發行量獲得240萬民眾的資料,而蓋洛普僅在嚴格抽樣基礎上研究了5000人,是“小資料”的複雜演算法超過“大資料”的簡單演算法的真實案例。

沒有抽樣的擬合,直接面對大資料,將使我們失去對人的瞭解,對真實規律的追尋,畢竟不是所有的社會事實都一場流感一樣易於預測,況且即便是谷歌被廣為讚譽的流感預測案例也被認為存在問題:在與傳統的流感監測資料比較之後,根據網際網路流感搜尋實時更新的Google流感趨勢被發現明顯高估了流感峰值水平。科學家指出基於搜尋有太多的噪音影響了它的精確度這表明基於社交網路資料探勘的流感跟蹤將不是替代而只能補充傳統的流行病監測網路。他們正在開發噪音較少的替代跟蹤方法,例如基於Twitter的流感跟蹤只包含真正病人的帖子,而不是轉載的流感新聞報導。

三、封閉資料與斷裂資料

封閉資料和斷裂資料所帶來的問題在第二部分已經提到,它們會產生虛假的統計學關係,影響分析結果的準確性和可檢驗性,下面具體對這兩方面的問題做一個分析。

(一)封閉資料使資料缺乏多樣化

“資料增值的關鍵在於整合,但自由整合的前提是資料的開放。開放資料是指將原始的資料及其相關後設資料以可以下載的電子格式放在網際網路上,讓其他方自由使用。開放資料和公開資料是兩個不同的概念,公開是資訊層面的,開放是資料庫層面的。開放資料的意義,不僅僅是滿足公民的知情權,更在於讓大資料時代最重要的生產資料資料自由地流動起來,以催生創新,推動知識經濟和網路經濟的發展。”

開放是大資料的題中之義,也是我國政府、企業在大資料時代必須適應的轉變,而我們目前面臨的情況仍然是一個平臺一個資料,資料壁壘造成的局面是:有所有資料,同時又什麼數都缺。

比如在醫療領域,大資料被認為為醫療領域帶來希望 —計算機可以在模仿人類專家在直覺方面更進一步,而不必依賴EBM這樣的小資料集了。醫療資訊體系仍在使用陳舊的資料屏障,在這個體系中,只有通過稽核的、標準的、被編輯過的資料才能被接收,由於缺乏一致性,許多可用的資料被拒之門外。這個屏障創造了同質化的資料,而排除了能使系統真正有用的多樣性。

再以新浪、搜狐、網易、騰訊四大微博的資料平臺為例,四家公司的資料各自為陣,相互獨立,關於微博使用者行為分析都是基於對自己現有使用者的分析,這種封閉的資料環境下,很多層面的具體分析都將受到很大的侷限,比如重疊使用者的分析,什麼特徵的人群會只在一個平臺上開設賬號,什麼特徵的人會在不同平臺上都開設賬號,在不同平臺上使用風格是否相同,在不同賬號下活躍度是否相同,影響因素是什麼?這是在封閉的資料環境下無法進行分析的。

資料是企業最重要的資產,而且隨著資料產業的發展,將會變得更有價值。但封閉的資料環境會阻礙資料價值的實現,對企業應用和研究發現來講都是如此,因此我們需要合理的機制在保護資料安全的情況下開放資料,使資料得到充分利用。有效的解決辦法之一是公正的第三方資料分析公司、研究機構作為中間商收集資料、分析資料,在資料層面打破現實世界的界限,進行多家公司的資料共享而不是一家公司盲人摸象,這才能實現真正意義上的大資料,賦予資料更廣闊全面的分析空間,才會對產業結構和資料分析本身產生思維轉變和有意義的變革。

(二)斷裂資料使資料缺乏結構化

封閉資料使我們無法看到多樣化的資料,斷裂資料則使資料缺乏結構化。來自IDC的報告顯示,2012年全球數字資訊中90%的資料都是視訊、聲音和影像檔案這樣的非結構化資料 ,缺乏結構化本身是可以通過新技術解決的問題,正因為如此才使這個問題變得棘手。對新技術的過分追逐,一方面會使得資料本身的真實性、完整性遭到破壞,另一方面會使對資料背後的人和生活意義的分析得不到充分重視。

1.行為背後看不見人,缺失生活意義

以淘寶為例,當淘寶想研究“究竟是什麼人”在淘寶上開店的時候,他們發現並不像想象中的那麼容易。

在淘寶公司的實時地圖上,可以利用GPS系統清晰的知道每一秒全國各地正在發生的交易,但是對於這些人的族群特徵,實時地圖並不能告訴他們更多。 同樣的問題出現在騰訊遊戲部門的使用者研究中,他們並不能從實時的監測中知道是誰在玩他們的遊戲,他們有什麼愛好、是什麼性格、為什麼喜歡一款遊戲?他們知道的只是一個ID賬號,這就是斷裂資料帶來的問題:表面上全面,實際上都是片段式的資料。全資料確實可以在一定程度上掌握人的行為,但是無法知道是什麼樣的人的行為。明白這一點,就可以理解為什麼谷歌會推出Google+,以獲取具體的使用者資訊,包括姓名、愛好、朋友、身份等具體資料。任何一個平臺都有其資料收集方面的優勢,也有其短板,表面上擁有海量資料,但其實都只是一個片段,缺乏連續性和可識別性。

巴拉巴西在《爆發》中介紹了一個網站LifeLinear,使用者通過在搜尋框中輸入自己的名字就可以查到自己一天任何時間任何地點的監控錄影,無論在哪兒,你的行蹤都會被網站記錄下來。這是作者虛擬的一個網站,但信以為真並輸入網站名字進行搜尋的人不在少數,因為理論上它是可以實現的,一是藉助城市中的無線監視系統,反饋資料到單條檢索資料庫中,指示計算機追蹤所有的人。二是,也是最為關鍵的是每個人都有固定的生活習慣、行為規律,系統可以據此為每個人建立行為模型,然後預測你可能出現的地方,並在那兒等你。

這樣一個系統的建立依靠技術系統,但更主要的是對每一個個體的全面瞭解和分析,假設、模型、檢驗缺一不可。在這本書中巴拉巴西介紹的另一位資料公開者,他把自己的位置資料、財產資訊都傳到網上,但是關於這個人你一無所知,因為沒有任何關於他性格、喜好等個性化資訊,是“什麼都有,但什麼都缺”的典型案例。

2.大量的非結構化資料顛覆原來分析的基本正規化

在大資料時代,需要處理的資料不再是傳統意義上的資料,而是文字、圖片、音訊視訊等種類多樣的資料,大量的非機構化資料對資料分析提出了新的挑戰,因為只有能被定義的資料才是有價值的資訊。

使用人人網的使用者大概不會陌生,在個人主頁上會出現好友推薦,這很簡單,只需要分析使用者的好友,找到朋友之間的關聯,就可以找到這一點。但是當人人網需要決定在廣告位上投放何種廣告時,則需要對大量的由使用者產生的文字、照片、分享內容與好友的互動進行分析。海量的非結構化、半結構化資料如何加以結構化並從中找出規律,這需要新的演算法、新的分析思維。

四、缺失資料

奧斯卡·王爾德在1894年說,“如今幾乎沒有無用的資訊,這真悲哀。”嚴格的說,他一半都沒有說對。只有有價值的資料才稱得上資訊,從資料中獲得儘量多的資訊並非易事,隨著資料量的擴大,缺失資料產生的比例也會相應擴大,尤其當一個樣本中出現多項缺失時,會加大處理的難度,除了構造模型失之準確之外,還有時間複雜度方面的問題。

對所有大資料來講,分析哪個問題資料量都不夠大,對於所有人來講,資料都是缺失多於正常數。在資料收集和整合過程中採用新技術手段避免這一問題將使這一問題在分析上帶來的分險變得更突出,比如BI公司為了避免資料的不完整性採用快速修復技術整合分散資料,這將使我們失去最原始的真實資料,這使得研究者很容易捨棄與假設不符合的資料,也使驗證結論變得不再可能。

比如雀巢在200個國家出售超過十萬種產品有55萬家供應商,但由於資料庫一團糟它並未形成強大的採購議價優勢。在一次檢查中它發現,在900萬條供應商、客戶和原材料記錄中有差不多一半是過期或重複的,剩下的有三分之一不準確或有缺失。供應商名稱有的簡寫有的不簡寫,產生了重複記錄。 這一個案例中就包含了封閉、斷裂、缺失資料的問題。

固然缺失資料可以嘗試通過模糊資料集理論得到解決,但許多研究情境對資料的要求是有確定性的。大資料時代需要的不只是全資料、海量資料、實時資料,而是真正的開放、更可能接近精確、著眼於人和社會的分析方法和思路。封閉的資料平臺,對斷裂資料、缺失資料在分析上構成的風險的忽視會使我們仍然停留在小資料時代,更糟糕的是,資料還在小資料時代,方法上卻已經在單純鼓吹各種應對大資料的新技術,這種不匹配造成的混亂比大資料本身帶來的混亂還要危險。

在一定意義上,我們可以運用已收集的資料,先來了解如何把事情做得更好。從這個角度上,我們再來考慮創新和大資料應用。畢竟,大資料產生影響的不只是通過協同過濾技術來預測你需要什麼產品,也不只是什麼時候買機票會更划算一些,這只是使人類和商業變得更聰明有趣的一個方面而已,紐約大學商務教授Sinan Aral說:“科學革命之前通常是測量工具的革命”, 大資料如此洶湧的發展之勢和席捲一切的雄心勢必將會影響到科學理論研究領域,這也是為什麼我們需要保持一點冷靜和審慎判斷的原因。此外,大資料在推動資訊共享,促進社會進步方面顯示出來的潛力也值得我們為更完美的解決方案努力。

誠如格爾茲所說:“熱力學第二原理、自然選擇原理、無意識動機概念,或生產方式的組織並沒有說明所有的東西,甚至連人的事情都沒有一一說明,但他們畢竟解釋了某些事物;認識到這一點,我們的注意力也就轉向確定這些事物到底是什麼,轉向使我們擺脫這些觀念在其最盛極一時之際導致的大量偽科學的纏繞。”在文章的最後,借用格爾茲在《文化的解釋》提出的觀點,表達對大資料研究的看法,因為時至今日,大資料這個概念的模糊之處仍多於其所昭示的,可待完善與研究之處仍然很多,我們的工作才剛開始。

作者:北京大學 劉德寰